为 什么 要 写 这 本 书 


在 我 做 数据 分 析 培 训 和 和 咨询 的 过 程 中 ， 经 常会 有 学 员 来 问 我 ， 有 没有 合适 的 统计 分 析 万 面 的 参考 书 可 以 推荐 。 被 学 员 问 得 多 
了 ， 慢 慢 地 束 有 了 写本 书 的 冲动 ， 一 是 毕竟 自己 写 的 书 和 培训 的 内 容 比 较 配 套 ， 二 是 写 书 对 目 己 来 说 也 是 一 个 忌 结 和 提高 的 过 程 
吧 。 


“理想 很 丰满 ， 现 实 很 骨 感 ”， 原 来 党 得 目 己 手 里 有 不 少 案 例 ， 各 种 工具 的 使 用 也 算是 比较 丈 练 ， 写 起 书 来 应 该 得 心 应 手 ， 
进度 也 会 比较 快 ， 但 是 真 到 开始 动手 写作 时 ， 才 友 现 并 不 是 那么 人 简单。 从 框架 目录 的 确定 、 章 节 内 容 的 选择 、 语 言 风格 的 打磨 ， 
到 分 析 结 果 截 图 的 选择 等 ， 每 一 个 环节 都 需要 细 细 地 思量 和 其 酌 。 这 本 书 的 写作 使 我 从 2016 年 4 月 到 11 月 的 这 段 时 间 非 剃 疲劳， 
颈椎 病 也 复 友 了 ， 因 为 在 写 书 的 同时 ， 我 的 数据 分 析 方 面 的 培训 并 没有 停止。 


我 在 写作 本 书 的 时 候 ， 给 自己 规定 了 几 个 原则 : 
一 是 要 实用 ， 要 能 够 解决 企业 工作 中 的 实际 问题 。 


二 是 要 尽 可 能 地 降低 读者 上 手 的 难度 ， 那 种 操作 非常 繁复 、 需 要 强大 坚实 的 统计 分 析 理 论 基础 ， 或 者 需要 编程 才能 实现 的 功 
能 ， 我 都 没有 放 在 本 书 中 。 原 因 很 简单 ， 即 使 本 书 讲 了 那些 难度 比较 大 的 内 容 ， 读 者 也 很 难 真 正 应 用 起 来 。 


三 是 语言 风格 尽 可 能 轻松 活泼 一 点 ， 尽 量 避 免 很 严肃 、 很 临 涩 的 专业 术语 ， 我 很 难 做 到 “ 寓 教 于 乐 ”， 但 还 是 尽 己 所 能 让 本 
书 的 阅读 轻松 一 点 吧 。 


在 本 书 的 写作 过 程 中 ， 我 经 常 提醒 自己 这 三 条 原则 ， 并 且 要 求 自 己 遵守 它们 。 

简 言 之 ， 给 读者 市 来 一 本 “有 用 的 、 上 手 比 较 容易 的 、 读 起 来 比较 轻松 的 ”数据 分 析 书 ， 这 就 是 我 写 这 本 书 的 原则 和 动力 。 
读者 对 象 

这 本 书 的 读者 对 象 是 企 事业 单位 中 从 事 数 据 分 析 的 非 统计 专业 人 士 : 

: 企业 中 的 市 场 部 相关 人 员 ， 包 桥 市 场 分 析 人 员 、 产 品 设计 和 研发 人 员 、 销 售 经 理 等 。 

` 企业 中 的 生产 部 人 员 ， 包 括 生 产 经 理 、 质 量 控 制 经 理 等 。 

` 企业 中 的 财务 部 人 人员， 包括 财务 总 监 、 财 务 经 理 等 。 

` 企业 中 其 他 需要 经 第 和 各 类 数据 打交道 的 管理 人 员 和 一 般 工 作 人 员 。 


如 果 读 者 是 高 校 或 者 科研 院 所 的 教师 、 学 生 、 科 研 人 员 ， 要 从 事 专 业 学 术 论 文 的 撰写 或 者 纵向 科研 项 目的 研究 工作 ， 不 建议 
你 将 本 书 作为 主要 的 阅读 和 学 习 的 书籍 ， 因 为 使 用 的 工具 、 模 型 、 方 法 都 会 大 相 径 庭 ， 例 如 撰写 学 术 论 文 经 党 要 使 用 Eviews、 
Stata 等 专业 计量 工具 ， 而 这 些 专 业 计 量 工 具 在 企业 中 使 用 的 概率 非常 低 。 


如 何 阅 读本 书 


本 书 分 为 三 大 部 分 ， 第 一 部 分 基础 篇 (第 1 草 和 第 2 章 ) 主要 介绍 数据 分 析 的 概念 、 术 语 、 方 法 、 模 型 等 ， 为 后 续 的 内 容 展 
开 葛 定 基础 。 


岳 、 


勘误 


本 书 有 错误 ,或 者 有 其 他 宝贵 意见 ， 请 友 送 邮件 到 我 的 邮箱 jhyjhy8888@163.com， 我 很 期 


致谢 


俗 询 


心 下 
ZI/ 


和 帮 


作 ， 


1 .1 


二 部 分 制 表 篇 (第 3 章 到 第 ? 章 ) 介绍 数据 的 采集 、 整 理 以 及 单 用 数据 报表 的 制作 。 


第 三 部 分 数据 分 析 篇 (第 6 章 到 第 14 草 ) 占据 了 本 书 的 大 部 分 篇 幅 ， 宫 括 了 弟 用 的 、 有 代表 性 的 、 实 用 的 功能 ， 包 括 数据 扫 


数据 标注 、 异 弟 值 分 析 、 回 归 等 。 


正文 中 所 提 “ 案 例文 件 ” 为 本 书 的 配置 案例 资料 ， 请 通过 网 络 目 行 下 载 ， 下 载 地 址 为 http://www.hzbook.com。 


和 支持 


由 于 作者 的 水 平 有 限 ， 编 写 的 时 间 也 很 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 ， 尽 请 读者 批评 指正 。 如 果 你 友 现 


佳人 bb 
人 行 有 上 


够 收 到 你 们 的 真 沁 反馈 。 


我 跟 我 的 家 人 说 ， 我 这 本 书 是 以 “part time” 的 方式 写 出 来 的 ， 因 为 在 写 书 的 过 程 中 ， 我 还 在 四 处 上 课 ， 也 做 了 一 些小 的 


项 目 。 


多 年 以 后 ， 如 果 回 顾 2016 年 ， 我 给 哪些 企业 上 过 哪些 课 ， 我 未 必 能 记 清 楚 ， 但 是 2016 年 我 写作 了 平生 第 一 本 书 ， 这 点 我 不 


iC。 


感谢 机 械 工 业 出 厂 社 华章 公司 的 编辑 杨 绣 国 老师 ， 感 谢 你 的 魄力 和 远见 ， 在 这 一 年 多 的 时 间 中 始终 广 持 我 的 写作 ， 你 的 鼓励 


助 引 导 我 顺利 完成 了 全 部 书稿 。 


最 后 我 一 定 要 感谢 我 的 家 人 ， 是 你 们 给 了 我 一 个 温暖 的 港湾 ， 让 我 在 这 一 年 中 几乎 不 用 做 家 务 ， 专 心 从 事 培 训 和 本 书 的 写 


多 许多 谢 ! 


谍 以 此 书 ， 献 给 我 最 杀 爱 的 家 人 ， 以 及 众多 热爱 数据 分 析 的 朋友 。 


一 眼 丈 看 到 结论 还 需要 数据 分 析 吗 


在 我 做 数据 分 析 培 训 和 和 咨询 的 时 人 息 ， 时 不 时 会 有 学 员 或 者 客户 流露 出 这 样 的 情绪 : 


我 们 的 企业 其 实 是 不 需要 数据 分 析 的 。 


我 们 公司 的 业务 情况 ， 我 很 清楚 ， 分 析 不 分 析 都 那样 ， 反 正 我 都 知道 了 。 


公司 的 数据 好 简单 啊 ， 融 那么 几 列 ， 有 啥 好 分 析 的 。 


纪 痪 元 


2017 年 1 月 于 中 国 上 海 


公司 里 面 的 很 多 数据 都 是 造假 的 ， 没 有 分 析 的 价值 。 


在 以 上 问题 中 ， 除 了 数据 质量 ， 其 他 问题 都 与 企业 数据 的 可 分 析 度 有 关 。 数 据 质 量 确 实 是 数据 分 析 很 难 解决 的 问题 ， 如 果 企 
业 员 工 出 于 种 种 原因 忌 是 在 编造 各 种 假 数据 ， 这 应 该 属于 职业 道德 或 者 企业 管理 水 平 (企业 应 该 通过 严格 严谨 的 管理 流程 使 得 员 
工 无 从 造假 ) 的 范畴 ， 这 里 暂且 不 讨论 。 那 么 ,什么 是 数据 的 可 分 析 度 呢 ? 


这 个 问题 实际 上 包含 如 下 两 层 意思 : 


1) 这 个 企业 的 数据 是 比较 复杂 的 ， 一 眼 是 看 不 到 结论 的 ， 需 要 使 用 一 些 工具 、 模 型 、 方 法 进行 分 析 。 


2) 关于 数据 的 分 析 是 有 价值 的 ， 也 殊 是 说 分 析 的 过 程 和 结论 对 于 企业 是 有 价值 的 ， 能 够 对 企业 的 生产 经 营 等 市 来 促进 和 提 


到 


因此 ， 在 数据 的 可 分 析 度 方面 ， 我 们 需要 有 一 些 判断 的 维度 ， 以 帮助 我 们 辨识 数据 是 否 值得 分 析 ， 这 里 所 说 的 维度 主要 考虑 
企业 数据 量 、 数 据 复杂 度 、 数 据 颗粒 度 这 三 个 方面 (如 图 1-1 所 示 ) 。 
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1.1 一 腿 丈 看 到 结论 还 需要 数据 分 析 吗 


在 我 做 数据 分 析 培 训 和 咨询 的 时 人 息 ， 时 不 时 会 有 学 员 或 者 客户 流露 出 这 样 的 情绪 : 
我 们 的 企业 其 实 是 不 需要 数据 分 析 的 。 
我 们 公司 的 业务 情况 ， 我 很 清楚 ， 分 析 不 分 析 都 那样 ， 反 正 我 都 知道 了 。 


公司 的 数据 好 简单 啊 ， 融 那么 几 列 ， 有 啥 好 分 析 的 。 


到 


1.1.1 


企业 数据 量 


一 是 企业 的 行业 属性 ， 二 是 企业 的 信息 化 程度 。 众 所 周知 ， 互 联网 行业 往往 也 是 产生 大 量 数据 的 行业 
了 各 目 行 业 的 发 展 ， 是 数据 和 


一 般 情 况 下 ， 企 业 的 数据 量 跟 企业 的 规模 呈正 相关 关系 ， 中 等 以 上 规模 的 企业 数据 量 均 比 较 大 。 但 是 也 有 例外 ， 我 曾经 接触 


因此 ， 在 数据 的 可 分 析 度 方面 ， 我 们 需要 有 一 些 判 断 的 维度 ， 以 帮助 我 们 辨识 数据 是 否 值得 
企业 数据 量 、 数 据 复杂 度 、 数 据 颗粒 度 这 三 个 方面 (如 图 1-1 所 示 ) 。 


公司 里 面 的 很 多 数据 都 是 造假 的 ， 没 有 分 析 的 价值 。 


在 以 上 间 题 中 ， 除 了 数据 质量 ， 其 他 问题 都 与 企业 数据 的 可 分 析 度 有 关 。 数 据 质量 确实 是 数据 分 析 很 难 解 决 的 问题 ， 如 果 企 
工 无 从 造假 ) 的 范畴 ， 这 里 暂且 不 讨论 。 那 么 ,什么 是 数据 的 可 分 析 度 呢 ? 
这 个 问题 实际 上 包含 如 下 两 层 意思 
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业 员 工 出 于 种 种 原因 总 是 在 编造 各 种 假 数 据 ， 这 应 该 属于 职业 道德 或 者 企业 管理 水 平 (企业 应 该 通过 严格 严谨 的 绾 理 流程 使 


1) 这 个 企业 的 数据 是 比较 复杂 的 ， 一 眼 是 看 不 到 结论 的 ， 需 要 使 用 一 些 工具 、 模 型 、 方 法 进行 分 析 


2) 关于 数据 的 分 析 是 有 价值 的 ， 也 殊 是 说 分 析 的 过 程 和 结论 对 于 企业 是 有 价值 的 ， 能 够 对 企业 的 生产 经 营 等 市 来 促进 和 提 


分 析 ， 这 里 所 说 的 维度 主要 考虑 


企业 数据 量 






数据 的 可 分 析 度 


企业 数据 量 


用 人 


征 止 


业 可 分 析 度 的 第 一 和 要素， 企业 数据 量 的 大 小 往往 取决 于 两 个 因素 : 
行 \ 


同时 也 是 数据 行业 友 展 的 标杆 。 


“BAT” 不 仅仅 引领 


业 ， 因 此 该 企业 的 手机 用 户 数量 有 3000 多 万 ， 每 天 产生 的 业务 数量 高 达 几 GB。 


1.1.2 


过 一 家 从 事 智 能 手机 操作 系统 推送 业务 的 公司 ， 该 公司 规模 很 小 ， 只 有 40 多 人 ， 但 是 由 于 合作 方 是 国内 诸多 智能 手机 的 生产 企 


效 据 复杂 度 


如 果 识 数据 量 相当 于 数据 的 行 ， 那 么 数据 复杂 度 残 相当 于 数据 的 列 。 某 公司 言 销 部 曾 给 我 友 来 的 数据 样 例 ， 总 共 的 列 数 加 在 
一 起 是 12 列 。 诅 公司 要 求 分 析 客 户 数据 ， 但 是 涉及 客户 资料 的 数据 基本 上 融 是 客户 名 称 、 客 户 行 业 (行业 数据 还 是 不 全 的 ) 这 
两 询 ， 客 户 注册 人 资本、 销售 收入 、 雇 佣 人数 都 没有 ， 生 么 分 析 ? 


做 过 数据 分 析 的 人 肯定 都 知道 “ 巧 妇 难为 无 米 之 炊 ” 的 苦楚 ! 请 想 想 ， 你 提供 的 客户 数据 就 是 密 密 数 列 ， 那 要 怎么 去 分 析 ? 
哑 么 做 文章 ? 


到 目前 为 止 ， 并 没有 什么 明确 的 指标 来 度量 数据 量 与 数据 复杂 度 ， 我 们 很 难说 每 天 的 数据 超过 3 万 行 束 算 数据 量 多 ， 或 者 说 
数据 超过 30 列 就 算数 据 复杂 。 特 别 是 数据 复杂 度 ， 这 中 间 还 有 一 个 数据 相关 性 的 问题 : 以 案例 文件 1.1 为 例 ， 虽然 其 中 的 数据 是 
3 列 ， 但 是 用 EXCEL 目 市 的 “数据 分 析 ” 模 块 中 的 “相关 分 析 ” 进 行 分 析 (相关 系数 的 函数 ， 后 面 会 详细 讲解 ) ， 我 们 友 现 第 二 
列 “ 销 售 数量 ”和 第 三 询 “ 销 售 额 ”之 间 的 相 天 系数 是 1 (完全 相关 ) ， 如 图 1-2 所 示 。 
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从 数据 分 析 的 角度 看 ， 这 里 实际 上 是 两 列 数 据 而 不 是 3 列 ， 换 句 话说 ， 第 3 列 的 销售 额 数据 属于 “生生 握 标 ”， 因 为 单价 30 
是 固定 的 ， 我 们 只 需要 用 销售 量 这 个 数据 残 可 以 反映 销售 的 状况 。 


因此 通过 数据 的 列 数 来 衡量 数据 复杂 度 其 实 也 未 必 准 确 ， 而 是 应 该 看 剔除 相关 性 乙 后 的 列 数 。 


1.1.3” 效 据 颗 粒度 


数据 颗粒 度 指 的 是 从 不 同 的 层次 来 看 待 数据 。 很 难 用 语言 来 形容 数据 颗 烽 度 的 重要 性 ， 还 是 通过 一 个 例子 来 说 明 一 下 。 炒 过 
股票 、 用 过 股票 软件 的 人 都 知道 各 种 周期 的 分 析 (如 图 1-3 所 示 ) 。 
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从 图 1-3 可 以 看 出 ， 股 票 有 1 分 钟 、5 分 钟 、15 分 钟 、30 分 钟 等 多 个 观察 周期 ， 而 各 种 周期 之 间 存 在 着 相互 包含 的 关系 ， 例 如 
5 分 钟 的 周期 线 实际 上 是 由 5 个 1 分 钟 的 周期 线 组 合 而 成 的 ， 而 15 分 钟 的 周期 线 是 由 3 个 5 分 钟 周期 线 组 合 而 成 ， 以 此 类 推 。 因 此 ， 
我 们 识 股 票数 据 的 颗粒 度 是 : 1 分 钟 、5 分 钟 .…… 


其 他 颗粒 度 的 例子 还 有 很 多 ， 例 如 在 分 析 各 地 GDP 的 数据 时 ， 涉 及 人 全国、 省、 市 、 区 (县 ) 等 颗粒 度 ; 考虑 家 电 产 品 的 维 
度 时 ， 也 有 家 电 、 日 色 家 电 、 冰 箱 、 型 号 等 颗粒 度 。 


理解 了 颗粒 度 之 后 ， 束 很 容易 理解 如 下 媚 理 : 数据 的 颗粒 硫 越 细 越 好 ， 因 为 有 了 细 颗 粒度 的 数据 ， 融 可 以 目 行 组 合成 颗粒 度 
比较 “ 粗 ” 的 数据 。 例 如 我 们 知道 了 全 国 各 个 区 (县 ) 的 GDP 数 据 ， 就 可 以 推算 出 市 、 省 、 全 国 的 数据 ， 但 是 反 向 的 操作 无 法 
实现 ， 即 知道 了 市 的 GDP 数 据 ， 未 必 能 够 知道 下 辖区 (县 ) 的 GDP 数 据 。 


综 上 所 述 ， 可 以 得 到 如 下 结论 : 企业 数据 量 比较 大 的 、 复 杂 度 比较 高 的 、 颗 粒度 比较 细 的 3 


数据 分 析 是 有 成 本 的 ， 这 种 成 本 包括 时 间 精 力 、 金 钱 ， 以 及 情感 上 的 烦恼 等 。 既 然 有 成 本 付出 ， 那 人 们 目 然 关心 ， 我 能 够 从 
数据 分 析 中 得 到 什么 ? 


1.2.1 了 解 效 据 的 整体 状 郊 


曾 有 人 在 培训 时 提出 ， 我 公司 的 业务 状况 ， 我 非常 清楚 ， 还 用 得 着 分 析 吗 ? 可是， 事实 真 的 是 这 样 吗 ? 你 真 的 对 公司 的 数据 
了 如 指 掌 ? 对 它 所 体现 的 特征 一 清二 楚 ? 如 果 公 司 的 数据 量 比较 大 、 比 较 复杂 ， 那 么 它 束 有 可 能 存在 潜在 的 价值 ， 束 有 分 析 的 必 
婴 ， 


数据 的 整体 状况 包括 如 下 内 容 : 

(1) 忌 体 状况 

忌 体 销量 是 多 少 ? 质量 问题 的 轧 计 是 多 少 ? 研发 团队 目前 有 多 少 人 ? 人 研 友 费用 是 多 少 ? 

(2) 结构 状况 

在 天 注 忌 量 之 和 余 ， 我 们 也 关心 结构 情况 ， 例 如 销售 在 各 产品 、 各 区 域 的 分 布 是 怎么 样 的? 哪些 设备 、 哪 些 机 床 有 质量 问题 ? 
(3) 异常 情况 


曾经 有 客户 问 过 我 这 个 问题 : “老师 ,我 们 希望 把 产品 销售 增 速 放 缓 的 品 线 找 出 来 ， 可 以 吗 ? ”这 里 先 解释 一 下 客户 的 需 
求 ， 就 是 假如 客户 一 月 份 的 销售 增 速 是 3%， 二 月 份 的 增 速 是 3.4%， 三 月 份 的 增 速 是 4.5%， 如 果 四 月 份 的 增 速 是 3.9%， 那 么 4 月 
份 的 增 速 束 放 组 了 ， 束 属于 异常 值 。 


什么 是 异常 值 ? 简单 地 讲 ， 就 是 根据 客 尸 的 想法 感 沉 有 些 异样 的 值 ， 这 些 值 是 我 们 要 重点 关注 的 东西 ， 并 且 会 试图 分 析 其 背 
后 的 原因 。 后 面 会 成 体系 地 详细 讲解 。 


(4) 其 他 一 些 数据 特征 


我 们 有 时 候 也 会 关心 数据 的 稳定 性 、 对 称 性 等 特征 ， 后 续 都 会 详细 讲解 。 


1.2.2 ”快速 理 向 数据 


数据 分 析 的 第 二 个 好 处 是 我 们 可 以 快速 地 得 询 数据 ， 在 数据 分 析 领 域 中 ， 人 饰 选 查询 是 一 个 视 泛 的 课题 ， 涉 及 很 多 技术 ， 从 简 
单 的 筛选 数据 到 动态 筛选 再 到 ACCESS 的 数据 查询 ， 内 容 非 常 丰 富 。 


我 曾经 碰 到 一 个 企业 的 老总 ， 他 跟 我 训 ， 企 业 里 面 的 数据 ， 他 不 可 能 都 记得 很 清楚 ， 但 是 他 时 单 需要 了 解 菜 个 数据 ， 例 如 某 
个 严 品 在 某 个 时 间 段 里 的 返修 率 是 怎么 样 的 ， 这 个 时 候 他 会 去 问 秘书 ， 秘 书 找 代数 据 后 骨 告 诉 他 。 “有 的 时 候 查 一 个 数据 ， 要 一 


个 小 时 ”， 这 位 老总 帝 得 效率 不 高 。 


们 到 这 种 情况 ， 如 果 企 业 的 规模 比较 大 ， 则 需要 建立 数据 库 ; 对 于 小 规模 的 企业 来 讽 ， 用 VB 控件 把 企业 的 重要 数据 全 部 整 
合 起 来 放 在 一 个 EXCEL 文 件 中 ， 是 一 个 高 效 而 且 切 合 实际 的 做 法 。 后 面 会 详细 讲解 VB 控件 的 具体 安 委 和 应 用 。 


1.2.3 ”数据 乙 间 天 系 的 探 系 


这 部 分 内 容 应 该 是 数据 分 析 中 最 像 “ 数 据 分析 ” 的 部 分 ， 例 如 以 下 的 问题 : 

- 产品 价格 中 的 成 本 占 比 是 多 少 ? 

` 如 果 成 本 上 升 了 ， 价 格 怎 样 调整 才 是 最 优 的 ? 

影响 产品 质量 的 因素 有 很 多 个 ， 假 如 这 些 数据 都 是 能 量化 的 ， 那 么 哪些 因素 对 产品 质量 是 有 影响 的 ? 
“ 肥胖 和 饮食 习惯 对 冠 心病 有 影响 吗 ? 


这 些 都 是 “正规 ”的 数据 分 析 的 内 容 ， 需 要 运用 一 些 统计 分 析 的 模型 算法 等 进行 分 析 。 


1.2.4 ”业务 预测 
这 里 把 业务 预测 放 在 数据 分 析 收 益 的 最 后 ， 并 不 代表 数据 预测 的 重要 性 是 排 在 最 后 的 。 在 我 和 企业 接触 的 过 程 中 ， 发 现 很 多 


企业 都 有 数据 预测 的 需求 ， 即 使 我 告知 他 们 预测 未 必 很 准确 ， 但 是 一 些 企业 也 坚持 要 做 一 些 预测 ， 他 们 认为 科学 预测 过 的 数据 ， 
对 他 们 的 生产 经 营 等 能 有 一 个 比较 科学 的 指导 。 


1.3 ”数据 分 析 的 几 大 抓 手 


时 不 时 地 有 培训 学 员 来 问 我 一 个 问题 “我 怎么 样 才 能 把 数据 分 析 做 好 ? ”要 回答 这 个 问题 还 真是 不 容易 ， 束 像 业余 围棋 爱 
好 者 问 “ 我 怎么 样 才能 快速 提高 目 己 的 棋 力 ? ”或 者 刚刚 进入 职场 的 大 学 生 问 “我 怎么 样 才能 把 销售 业绩 做 好 ? ”一 样 。 


任何 一 项 工作 要 做 好 ， 都 是 一 个 综合 的 成 体系 的 事情 ， 这 里 就 简单 梳理 一 下 把 数据 分 析 做 好 的 几 个 必要 条 件 。 


1.3.1 足够 多 的 数据 
给 巧 妇 多 一 点 米 吧 ! 数据 量 越 多 ， 每 天 更 新 的 数据 就 越 多 ， 做 分 析 的 价值 就 越 大 。 这 也 就 是 为 什么 现在 数据 分 析 做 得 比较 好 


的 还 是 电信 、 人 金融 、 互 联网 等 几 个 行业 ， 汽 车 行业 现在 进展 也 比较 快 。 从 部 门 的 角度 看 ， 市 场 部 、 财 务 部 、 生 产 部 、 质 量 部 等 是 
需要 做 数据 分 析 的 重点 部 门 ， 为 什么 ? 束 是 因为 数据 多 啊 。 


1.3.2 ”数据 质量 


光 有 数据 量 还 不 行 ， 数 据 质量 也 是 非 单 重 要 的 。 总 体 来 襄 ， 我 国 很 多 企业 的 数据 质量 目前 还 比较 低下 的 ， 移 不 次数 据 是 否 有 
迄 假 的 成 分 ， 光 是 数据 的 “ 粗 漏 钳 乱 ”这 些 残 足 以 让 企业 的 数据 分 析 人 员 头 疼 了 。 


“ 粗 ” 是 指数 据 的 颗粒 度 很 得， 过 于 粗 焉 的 数据 ， 使 得 数据 的 分 析 价 值 非 营 低 。 
" 漏 ”是 措 由 于 企业 的 数据 规划 或 者 数据 记录 仪器 等 的 问题 ， 很 多 数据 都 没有 被 记录 下 来 。 


“ 错 ” 和 “ 乱 ” 指 记录 的 数据 错误 ,或 者 是 数据 被 不 同 的 部 门 所 记录 ， 但 是 数据 对 不 上 。 例 如 有 一 个 指标 数据 ， 市 场 部 记录 
为 103， 而 财务 部 记录 为 124， 大 家 看 到 这 个 例子 可 能 会 党 得 这 怎么 可 能 啊 ? 但 是 我 想 告 诉 你 ， 由 于 IT 系 统 的 五 花 八 门 以 及 部 门 
之 间 效 据 经 昔 缺 乏 稿 核 比 对 ， 因 此 很 容易 出 现 这 类 问题 。 


1.3.3 ”合生 的 工具 


用 来 做 数据 分 析 的 工具 很 多 ， 比 较 知 名 的 残 有 10 多 种 ， 如 果 再 加 上 那些 不 知名 的 ， 襄 几 十 种 都 算 少 的 。 


有 的 学 员 在 跟 我 交流 时 提 人 到 不 愿意 换 工 具 ， 例 如 他 好 不 容易 熟悉 了 Eviews， 然 后 要 做 销售 数据 的 季节 性 分 解 ， 虽 然 听 说 
SPss 比 较 好 ， 但 是 他 不 愿意 换 ， 觉 得 再 学 一 个 软件 比较 及 烦 。 


我 个 人 的 观点 是 : 存在 的 束 是 合理 的 。 每 种 软件 都 有 它 的 优势 ， 反 过 来 ， 也 有 它 的 问题 。 其 实 我 们 可 以 送 向 思维 ， 如 果 有 一 
个 软件 什么 都 能 干 ， 那 么 其 他 的 软件 就 可 以 退出 市 场 了 。 


要 把 各 种 软件 的 优势 和 长 处 说 清 楚 是 件 不 容易 的 事情 ，2.2 忆 会 尽 可 能 做 一 个 总 结 和 摘 述 。 


1.3.4 分析 结果 的 呈现 


仅仅 能 够 分 析 数 据 是 不 够 的 ， 还 需要 把 分 析 的 结果 展示 给 其 他 人 ， 这 包括 领导 、 同 事 、 客 户 等 。 数 据 呈 现 目前 是 一 个 热门 话 
题 ， 所 请 呈 现 ， 焉 是 把 数据 分 析 的 比较 专业 甚至 星 深 的 结果 ， 以 生动 的 甚至 有 趣 的 形式 展示 给 他 人 看 。 


比较 通俗 地 齐 ， 有 人 认为 呈现 就 是 画图 ， 我 比较 认同 这 个 观点 ，“ 一 图 抵 干 言 ”， 人 们 对 于 图 形 的 接受 程度 要 远 远 高 于 文字 
EXCEL 中 有 很 多 绘图 技巧 ，EXCEL 的 更 新 版 本 也 在 对 图 形 绘制 进行 不 断 地 改进 ， 各 种 专业 统计 工具 中 都 有 绘图 模 

块 ，Stata、SAS、R 等 软件 都 有 专门 的 绘图 命令 用 来 绘制 图 形 . 

1.4 ”数据 分 析 的 流程 


数据 分 析 一 般 有 数据 采集 、 数 据 整 理 、 制 表 、 数 据 分 析 、 数 据 呈 现 等 多 个 阶段 。 当 然 ， 不 是 说 每 一 个 数据 分 析 的 过 程 都 需要 
这 些 阶段 ， 有 的 企业 数据 质量 非常 好 ， 目 然 束 不 需要 数据 采集 过 程 了 ; 也 有 些 数 据 分 析 并 不 怎么 需要 呈现 过 程 。 不 过 ， 为 了 方便 
击 


读者 理解 ， 下 面 将 介绍 一 个 完整 的 流程 。 


me 


1.4.1 ”数据 采集 
数据 及 集 指 为 了 保证 数据 分 析 能 够 顺利 展开 而 进行 的 数据 采集 工作 。 数 据 采 集 工 作 的 难度 、 跨 度 非常 大 ， 有 的 采集 工作 非常 
简单 ， 仪 仅 是 几 个 简单 的 邮件 、 电 话 ， 就 能 够 完成 数据 的 采集 工作 ; 有 的 数据 采集 工作 则 非常 痛苦 ， 甚 至 经 常会 出 现 采 集 不 到 数 
据 的 情况 。 
数据 采集 的 难度 一 般 表 现在 如 下 几 个 方面 。 
(1) 数据 根本 丈 不 仔 在 
由 于 企业 缺乏 数据 规划 或 者 现场 人 员 焉 漏 等 原因 ， 企 米 集 数据 的 过 程 中 ， 经 单 友 现 数据 根本 融 不 仔 企 。 
(2) 数据 过 粗 
如 1.1.3 节 所 述 ， 企 业经 单 在 数据 记录 的 颗粒 度 廊 面 出 问题 ， 例 如 根据 某 企 业 的 规定 ， 项 目的 成 本 数据 应 该 按照 “天 ”为 单 
位 来 记录 ， 但 是 我 们 最 后 友 现 成 本 记录 的 单位 是 “月 ”， 这 中 间 的 差别 非 钊 大 。 


(3) 数据 质量 低下 
数据 的 错误 、 对 不 上 、 缺 漏 等 情况 普遍 存在 ， 曾 经 有 一 个 项 目 合作 方 对 我 说 ， 如 果 严 格 校 对 数据 质量 ,我 们 的 数据 可 以 删除 
70%。 试 想 想 ， 在 30% 的 比较 “ 靠 谱 ”的 数据 上 做 分 析 ， 得 出 的 结论 是 否 靠 谱 ? 


(4) 人 为 原因 导致 数据 采集 困难 


一 些 人 为 原因 也 会 导致 数据 采集 的 困难 ， 包 括 部 门 乙 间 的 隅 闵 、 人 际 天 系 等 因素 。 


1.4.2 ” 效 据 忒 理 


但 凡是 做 过 数据 分 析 的 人 都 知道 ， 数 据 整 理 是 一 个 痛 吉 而 且 复 杂 的 过 程 ， 很 多 数据 使 到手 己 后 ， 并 不 能 马上 做 处 理 ， 而 是 要 
经 过 一 个 转换 过 程 ， 请 看 图 1-4 所 示 的 一 个 需要 整理 的 数据 案例 。 





从 图 1-4 可 以 看 出 ，A 列 的 数据 都 是 合并 单元 格格 式 ， 如 果 要 对 以 上 的 数据 进行 透视 表 分 析 ， 需 要 进行 如 下 的 操作 。 
(1) 取消 合并 单元 格 


选中 A 列 ， 扣 击 EXCEL 中 的 “开始 ”一 “合并 后 居中 ”， 取 消 合 并 单元 格 之 后 的 数据 效果 如 图 1-5 所 示 。 





(2) 填充 空 日 单元 格 


按 F5 键 ， 点击 “定位 条 件 ”， 如 图 1-6 所 示 。 
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在 弹出 的 界面 中 选择 “ 空 值 ”， 如 图 1-7 所 示 。 


这 时 工作 表 中 的 空 日 都 被 选中 了 ， 效 果 如 图 1-8 所 示 。 
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在 公式 栏 中 输入 “=A2”， 也 就 是 让 每 一 个 单元 格 都 等 于 上 一 个 单元 格 的 值 ， 然 后 按 “Ctrl+Enter” 组 合 键 ， 空 日 处 都 填 元 
好 了 。 填 充 后 的 效果 如 图 1-9 所 示 。 
































以 上 只 是 一 个 小 小 的 例子 ,我 们 在 进行 数据 处 理 的 时 候 ， 都 要 先进 行 各 种 数据 整理 。 甚 至 有 时 数据 整理 的 时 间 会 占据 数据 分 
析 时 长 的 70% 以 上 。 


1.4.3” 制 表 


制 表 是 日 单 工作 的 重要 组 成 部 分 ， 也 是 数据 分 析 的 重要 组 成 部 分 。 实 际 上 不 少 企 业已 经 把 企业 管理 工作 贯穿 到 报表 的 实现 当 
中 ， 通 过 一 张 张 精 心 设计 的 报表 ， 管 理 人 员 可 以 迅速 了 解 企业 的 采购 、 和 生产、 销售 、 售 后 、 财 务 、 人 事 、 安 全 等 相 天 信息 。 


企业 常见 的 报表 包括 如 下 类 型 。 
. 采购 报表 : 反映 企业 各 部 门 的 需求 ， 供 应 商 供 货品 类 、 价 格 等 状况 ， 采 购 项 目 进展 状况 等 ; 
‘生产 报表 : 包括 产量 表 、 成 本 表 、 人 力 消耗 表 、 设 备 故 障 表 、 安 全 质量 表 等 ; 


“ 财务 报表 : 包括 销售 输入 管理 、 成 本 管控 表 、 量 本 利 分 析 表 、 流 动 资产 管理 表 、 负 债 管理 表 、 投 资 项 目 决 策 表 、 财 务 预测 


售后 报表 : 包括 样品 跟踪 表 、 设 备 状况 跟踪 、 客 户 满意 度 跟踪 、 投 诉 建 议 表 等 ; 


" 人 事 报 表 : 包括 人 员 状 况 、 薪 资 福利 、 人 员 殿 佣 离 职 表 等 乡 个 报表 。 


1.4.4 ”数据 分 析 


数据 分 析 的 范围 非 党 广泛 ， 几 是 基于 业务 需求 出 友 且 依托 于 数据 进行 分 析 的 ， 束 是 数据 分 析 。 
企业 的 数据 分 析 一 般 包 括 以 下 万 面 。 


. 营销 数据 分 析 : 这 是 企业 数据 分 析 的 主要 部 分 ， 个 人 认为 也 是 数据 分 析 最 迷人 最 有 魅力 的 地 方 。 营 销 数据 分 析 包括 营销 束 


六 
体 状况 分 析 、 客 户 分 析 、 产 品 线 分 析 、 促 销 分 析 、 客 户 画 人像、 客户 购买 原因 分 析 、 营 销 预 测 、 营 销 异 常 值 分 析 等 。 
“ 生产 质量 数据 分 析 : 包括 生产 态势 分 析 、 设 备 故障 分 析 、 生 产 成 本 分 析 、 质 量 稳定 性 分 析 等 。 


` 财务 数据 分 析 : 财务 数据 分 析 也 是 数据 分 析 的 主要 部 分 之 一 ， 在 很 多 企业 ， 和 营销 数据 和 财务 数据 有 很 多 交集 ， 甚 至 我 见 过 


一 些 企 业 的 营销 数据 基本 上 是 在 财务 部 进行 汇总 的 。 财 务 数据 分 析 一 般 比 较 关 心 异 常 值 分 析 、 财 务 预 测 、 成 本 结构 、 项 目 投 融 资 


14.5 ”数据 展示 (呈现) 
数据 展示 这 件 事情 的 跨度 很 大 ， 高 度 重视 数据 展示 的 大 企业 会 购买 类 似 Tableau 这 样 的 专业 可 视 化 软件 ， 这 类 软件 功能 强 


大 ， 能 够 承受 大 数据 量 的 考验 ， 且 运转 速度 快 ， 而 一 般 的 企业 由 于 实力 限制 或 者 没有 那么 高 层次 的 需求 ， 通 弟 利 用 EXCEL 或 者 一 
些 数 据 分 析 插 件 来 优化 图 形 展示 效果 即 可 。 


1.5 ”如 何 成 为 数据 分 析 高 手 


在 工作 中 接触 数据 比较 多 的 朋友 ， 由 于 提高 工作 效率 的 需要 ， 或 者 考虑 到 职业 友 展 前 途 ， 经 常会 关心 一 个 问题 : 我 怎么 样 成 
为 一 个 数据 分 析 高 手 ? 这 种 想法 非常 目 然 ， 如 同一 个 下 围棋 的 人 经 常会 想 “ 我 息 么 样 成 为 围棋 高 手 ”一 样 。 


根据 我 个 人 的 理解 ， 要 想 成 为 数据 分 析 高 手 ， 要 做 到 如 下 几 个 方面 。 


1.5.1 “和 车 不 匈 手 ， 曲 不 离 口 

我 培训 的 课程 大 概 有 10 多 门 ， 不 过 课程 的 频 度 不 同 ， 有 的 课程 一 年 要 上 好 多 遍 ， 而 有 的 课程 相对 比较 冷门 ， 一 年 也 上 不 了 
几 次 。 然 后 我 就 发 现 ， 那 几 个 冷门 课程 ， 我 每 次 上 课 之 前 都 要 备课 ， 因 为 有 些 细节 我 忘记 了 。 

项 目 中 也 是 如 此 ， 自 己 写 的 系统 代码 ， 隔 段 时 间 不 看 了 ， 就 会 有 点 看 不 懂 了 ， 需 要 静 下 心 来 仔细 看 一 看 。 


所 以 ， 要 成 为 数据 分 析 的 局 手 ， 第 一 要 趾 残 是 你 工作 中 的 数据 很 多 ， 而 且 天 天 要 做 表 、 做 分 析 ， 做 得 多 了 ， 目 然 丈 练 了 ， 感 
况 也 有 了 。 


记得 卖 油 例 的 那 句 话 吧 : 无 他 ， 唯 手 熟 尔 。 


1.5.2 别 练 草 握 帅 用 工具 


“ 工 欲 善 其 事 ， 必 移 利 其 器 ” ， 这 话 一 点 不 假 ， 身 处 信息 时 代 的 我 们 ， 擎 握 (尤其 是 熟练 掌握 ) 一 些 工 具 是 非常 有 必要 的 。 
第 2 章 会 比较 详细 地 介绍 统计 分 析 工 具 ， 以 下 只 是 谈 谈 我 目 己 的 一 些 体会 。 
1. 贵 精 不 贵 多 


我 曾经 页 到 过 这 样 的 人 ， 他 平时 工作 用 EXCEL， 也 用 VBA， 根 据 我 对 他 的 了 解 ， 他 的 VBA 用 得 一 般 ， 基 本 束 是 入 门 的 级 别 
吧 。 他 报名 去 学 习 Matlab， 也 上 自学 过 R，2015 年 磁 到 他 的 时 候 ， 他 说 现在 要 考虑 学 Tableau。 首 先 ， 我 很 赞 蓉 和 佩服 他 的 学 习 精 
钊 ， 毕 竟 要 学 这 么 多 乐 西 ， 是 要 耗费 很 多 时 间 和 精力 的 〈 包 括 要 伦 不 少 钱 ) ， 但 是 ,我 绝对 不 赞成 他 的 这 种 风格 。 要 知道 ， 对 于 
一 个 分 析 工 具 的 掌握 需 要 长 时 间 的 学 习 和 实践 ， 有 人 说 大 部 分 人 只 掌握 了 EXCEL 中 5% 的 功能 ,我 个 人 基本 表示 赞同 。 我 使 用 
VBA 近 20 年 ， 仍 然 葛 得 对 VBA 的 很 多 功能 还 是 知之 甚 少 。 再 说 ， 如 果 你 融 练 地 尝 握 了 一 种 工具 ， 再 学 其 他 的 也 比较 容易 。 


2. 工 具 之 间 往 往 是 互补 的 


我 们 需要 掌握 一 个 工具 组 合 ， 一 个 有 效 的 工具 组 合 可 以 基本 解决 你 的 大 部 分 问题 。 实 际 上 ， 我 在 分 析 数 据 时 ， 经 常 是 多 种 工 
具 一 起 使 用 。 我 会 用 EXCEL VBA 表 来 收集 数据 ， 用 EXCEL 来 预 处 理 数据 ， 用 EXCEL 数 据 透 视 表 和 SPSS 来 分 析 数 据 ， 用 XLSTAT 来 
做 对 应 分 析 和 决策 树 (因为 我 党 得 XLSTAT 虽 然 是 个 小 工具 ， 但 是 它 在 多 重 对 应 分 析 和 决策 树 这 两 个 模块 上 做 得 特别 好 ) ， 然 后 
我 会 用 clementine 来 处 理 关 联 分 析 。 因 此 ，“ 组 合 拳 ”还 是 很 有 必要 的 。 


1.5.3 ”最 好 能 编 点 程序 


记得 曾经 看 过 一 篇 文 草 ， 写 的 是 在 美国 ， 很 多 小 孩 都 能 编 点 入 单 的 程序 ， 有 的 小 学 生 甚 至 能 够 熟练 地 掌握 双重 循环 ， 也 就 是 
说 ， 编 程 这 个 技巧 ， 起 码 在 美国 ， 大 家 没 认为 它 是 一 个 很 高 端的 技能 。 


国内 的 情况 则 大 大 不 同 ， 个 人 的 感 玩 是 很 多 企业 人 员 对 编程 都 比较 害怕 ， 甚 至 到 了 区 惯 的 程度 。 我 曾经 在 班 上 问 过 一 些 学 


员 ， 在 大 学 的 时 候 有 没有 学 过 编程 ， 有 1/3 的 学 员 举 手 。 实 际 上 ， 现 在 的 大 学 在 大 一 的 基础 课 中 是 有 VB 和 (人 语言 的 。 不 过 即使 这 
样 ， 我 仍然 铝 得 很 多 学 员 包 括 学 过 VB 或 C 语 言 的 学 员 都 不 大 喜欢 或 者 不 大 愿意 去 接触 编程 。 


我 们 的 很 多 学 员 ， 还 没有 开始 编程 ， 融 已 经 挥 头 撤退 了 ， 他 们 已 经 把 目 己 归 类 到 不 可 能 学 会 编程 的 那个 行 询 中 去 了 ! 


本 书 的 主 刘 不 是 探讨 为 什么 很 多 有 操 编 程 基础 的 人 不 愿意 编程 ， 这 里 想 说 的 是 ， 编 程 拉 能 几乎 是 数据 分 析 高 手 的 必 备 拉 能 。 
如 果 学 会 一 种 编程 语言 将 极 大 地 提高 数据 分 析 的 能 力 ， 如 果 精 通 的 话 那 实在 是 太 棒 了 。 


试想 ， 人 家 在 跑 代 码 ， 而 你 是 手工 做 数据 ， 这 可 是 天 壤 之 别 ! 数据 量 大 到 一 定 程度 ， 步 又 多 到 一 定 程度 ， 手 工 就 没 法 做 了 。 


1.5.4 ”一 定 要 通晓 业务 
做 数据 分 析 ， 不 能 为 了 做 分 析 而 分 析 ， 做 数据 分 析 的 出 友 点 是 业务 需求 ， 例 如 ， 我 们 要 做 商务 了 预测， 或 者 我 们 要 找到 有 兴趣 
购买 我 们 产品 的 客 尸 ， 因 此 但 凡是 数据 分 析 高 手 ， 基 本 上 都 有 两 个 特征 : 一 是 懂 业 务 ， 二 是 会 做 数据 。 


曾经 有 企业 领导 问 我 ， 他 们 要 建 一 个 数据 团队 ， 如 何 组 建 ? 我 跟 他 说 ,不 管 你 是 内 部 选拔 还 是 外 部 招聘 ， 建 议 你 团队 里 面 一 
定 要 有 几 个 从 业务 口 出 来 的 人 ， 这 几 个 人 懂 业 务 ， 跟 企业 其 他 人 员 也 熟 ， 沟 通 、 交 流 都 方便 。 后 来 ， 我 得 项， 他 们 的 数据 团队 有 
两 个 副 经 理 ， 一 个 是 偏 业 务 的 内 部 人 员 出 身 ， 一 个 是 外 部 招聘 的 统计 学 硕士 ,我 完 得 这 个 设置 比较 合理 。 


第 2 草 ” 数 据 分 析 的 理论 、 工 具 、 模 型 


记得 在 我 上 研究 生 的 时 候 ， 曾 经 有 一 位 老师 问 我 ， 什 么 是 足球 的 “越位 ”? 我 很 奇怪 他 为 什么 问 这 个 问题 ， 他 说 看 世界 杯 转 
播 老 是 在 说 越位 ， 但 他 不 知道 喻 意思。 而 我 上 大 学 的 时 候 特 别 喜欢 踢 球 ， 大 学 毕业 之 后 也 经 常 踢 球 ， 所 以 “越位 ”对 我 来 说 册 简 
单 不 过 了 ， 只 是 没 想到 一 位 智力 超群 、 知 识 渊博 的 大 学 老师 却 并 不 知晓 ， 所 以 这 件 事 给 我 留 下 了 深刻 的 印象 。 那 时 我 束 明 日 了 ， 
原来 我 党 得 简单 不 过 的 东西 ， 若 其 他 人 未 接触 过 ， 可 能 束 示 必 知 道 。 反 之 亦 然 ， 别 舍得 非常 侧 单 的 东西 ， 我 若 未 入门 ， 有 可 能 
也 不 知道 。 都 说 隅 行 如 隔山 ， 也 融 是 这 个 理 儿 。 


之 所 以 说 隔行 如 隔山 ， 那 是 因为 每 个 行业 都 有 其 规定 、 规 矩 、 基 本 概念 和 术语 ， 行 外 人 常常 是 摸 不 着 门道 的 。 数 据 分 析 也 不 
例外 ， 它 也 有 自己 的 特色 ， 下 面 束 一 起 来 了 解 一 下 。 
2.1 基本 概念 和 术语 


2.1.1 基本 概念 


有 天 统计 和 数据 挖 据 的 概念 很 多 ， 以 下 拣选 一 些 常 用 的 基本 概念 进行 说 明 。 


1. 统 计 与 挖掘 


“统计 ”， 对 于 读者 来 说 可 能 并 不 陌生 ， 在 “统计 ”、“ 挖 掘 ”这 两 个 概念 中 ， 可 能 大 家 往往 会 名 得 “挖掘 ”更 难 理解 。 统 
计 和 挖掘 最 大 的 差别 在 于 : 统计 是 事先 设想 好 的 一 个 动作 ， 然 后 去 验证 已 。 例 如 移 假 设 销售 收入 和 销售 投入 之 间 有 关系， 公司 多 
投 钱 给 推销 人 员 去 拜访 客户 ， 融 能 获得 更 多 的 用 户 和 订单 ， 销 售 收入 融 能 上 升 ， 然 后 我 们 用 统计 的 模型 去 验证 已。 


另外 的 一 个 例子 是 : 社会 大 众 都 认为 吸烟 是 导致 肺癌 的 重要 原因 ， 然 后 大 家 找 来 了 一 些 肺癌 患者 的 相关 数据 ， 人 研究 表明 ， 同 
样 是 吸烟 者 ， 有 的 人 得 了 肺癌 ， 但 是 很 多 人 却 没事 ， 并 且 一 些 从 来 不 吸烟 的 女性 也 有 得 肺癌 的 。 这 样 ， 大 家 慢 慢 开始 怀疑 肺癌 和 
吸烟 之 间 的 正 向 关系 。 或 者 简单 地 说 ， 对 于 这 个 例子 ,统计 分 析 的 结论 是 固定 的 : 只 有 两 种 可 能 ， 一 是 肺癌 和 吸烟 有 关系 ， 二 是 
无 天 ! 


那么 数据 挖掘 是 怎么 样 的 呢 ? 

曾经 有 炒股 票 的 大 户 给 了 我 们 很 多 数据 ， 包 括 股 票 是 否 涨 停 、 是 否 放 量 、 前 几 天 的 各 种 指标 ， 涉 及 KDJ、RSI、MACD 等 ， 
客户 希望 我 们 帮 他 确定 : 具有 什么 样 特征 的 股票 是 比较 容易 涨停 的 ? 这 个 需求 怎么 实现 后 面 册 说， 这 里 想 要 说 明 的 是 ， 在 分 析 这 
个 数据 之 前 ， 是 没有 有 “假定” 的， 我们 不 知道 最 后 做 出 来 的 结果 是 什么 样 的 。 这 就 是 数据 挖掘 ， 从 大 量 的 数据 中 通过 各 种 方法 找 
出 隐藏 于 其 中 的 信息 。 

2 平均 值 

平均 值 似乎 是 一 个 无 须 讲 的 和 东西， 但 是 实际 上 在 数据 量 大 的 情况 下 ， 平 均值 反映 的 是 一 个 数据 “应 该 ”是 什么 。 记 得 之 前 曾 
看 过 一 份 报告 ,说 上 海 成 年 男性 的 平均 身高 是 170.5 厘 米 ， 那 份 报告 的 样本 量 是 比较 大 的 ， 实 际 上 就 是 说 上 海 男性 的 身高 “应 
该 ”是 170.5 厘 米 。 

3. 标 准 差 

如 果 说 平均 值 反 映 了 数据 的 “中 轴线 ”， 那 么 标准 磊 束 反映 了 数据 的 波动 情况 ， 也 束 是 说 数据 是 波澜 不 惊 还 是 起 伏 不 定 。 

平均 值 + 标准 差 ” 仿 佛 束 是 一 对 结义 兄弟 ， 焦 不 离 孟 、 盏 不 离 灸 ， 我 们 经 弟 用 这 个 组 合 来 衡量 数据 的 变动 学 围 ， 如 图 2- 
1 (数据 的 平均 值 和 标准 差分 布 图 ) 所 示 。 


4. 正 态 分 布 


襄 起 正 仿 分 布 ， 我 自己 都 有 扣 犯 难 ， 因 为 正 仿 分 布 是 理论 性 比较 强 的 ， 这 本 书 的 初衷 是 侧重 应 用 而 不 是 理论 。 不 过 正 仿 分 布 
实在 是 重要 ， 它 贯穿 了 统计 分 析 的 全 过 程 ， 几 乎 无 处 不 在 ， 正 仿 分 布 如 同 统 计 分 析 中 绕 不 过 去 的 一 堵 墙 ， 因 此 还 是 需要 解释 一 
下 
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图 2-1 ( 附 彩 图 ) 


理解 正人 态 分 布 ， 束 从 这 个 例子 开始 : 90 年 代 未 的 时 候 ， 移 民 还 比较 容易 ， 那 时 很 多 人 都 选择 了 移民 ， 那 么 ， 我 们 现在 来 看 
看 当时 移民 到 美国 、 加 拿 大 的 人 过 得 怎么 样 吧 ! 大 致 梳理 了 一 下 ， 得 到 如 下 结论 : 


` 混 得 好 的 : 很 少 ， 应 该 说 是 极 少 数 。 在 当地 大 企业 里 面 做 得 不 错 ， 没 几 个 ; 上 自主 创业 成 功 的 ， 好 像 没有 。 当 然 这 里 说 的 上 自 
主创 业 是 正 儿 和 八 经 的 创业 ， 开 中 国 餐 馆 个 人 认为 不 算 创 业 。 


- 混 得 一 般 的 : 大 多 数 ， 就 是 在 企业 里 面 有 一 个 首 通 的 职位 ， 算 不 上 有 钱 , 但 是 温饱 不 想 。 


` 混 得 差 的 : 也 是 少数 ， 有 一 些 人 回来 了 ， 或 者 在 那 边 就 是 干 司机 、 导 游 或 体力 活 ， 这 里 丝毫 没有 瞧不起 这 些 职业 的 意思 ， 
但 是 对 于 在 国内 受过 良好 高 等 教育 的 人 来 说 ， 算 是 专业 不 对 口 吧 。 


简单 地 进 ， 融 是 混 得 好 的 和 混 得 很 关 的 都 很 少 ， 大 多 数 都 是 普 普通 通 。 


其 实 这 种 规律 在 工作 和 生活 中 大 量 和 存在， 如果 跟踪 统计 一 下 大 学 毕业 生 的 友 展 情况 ， 大 致 也 是 这 样 ; 老百姓 的 体重 、 身 高、 
血压 、 血 糖 等 的 分 布 都 是 如 此 。 这 种 规律 融 是 我 们 经 单 提 到 的 正 态 分 布 。 


如 果 把 这 个 规律 稍微 进 得 形象 一 点 ， 融 是 “两 头 小 ， 中 间 大 ”， 请 见 图 2-2 (数据 的 频率 和 正 态 分 布 图 ) 。 
让 我 们 简单 地 看 一 下 正 态 分 布 的 规律 : 


1) 两 边 基 本 是 对 称 的 。 
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2) 形状 像 一 个 倒 扣 的 “ 钟 ”。 
3) 高 峰 在 中 间 ， 越 到 中 间 ， 数 据 分 布 的 概率 越 大 ， 越 到 两 边 ， 概 率 束 越 小 。 


这 个 看 上 去 很 箔 单 的 正 态 分 布 ， 其 实 丈 是 统计 分 析 的 重要 基础 ， 实 际 上 很 多 统计 规律 都 是 建立 在 数据 正 仿 分 布 的 基础 上 的 。 
或 者 说 ， 如 果 数 据 不 是 正人 态 分 布 的 ， 那 么 很 多 统计 规律 则 是 不 成 立 的 。 


根据 正 态 分 布 的 规律 可 以 得 到 ， 绝 大 部 分 (95%) 的 数据 ， 是 分 布 在 居中 的 位 置 上 的 ， 只 有 很 小 概率 的 事件 分 布 在 正 态 曲 续 
两 人 出， 这 个 丈 是 假设 检验 中 的 单 人 出 和 双 侧 ,如 图 2-3 所 示 。 


正 态 分 布 





95% 的 数据 在 这 里 
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5. 峰 度 和 偏 度 


峰 度 和 偏 度 算是 数据 分 析 中 比较 专业 的 概念 了 ， 峰 度 反 映 的 是 数据 中 极 值 的 情况 ， 请 看 图 2-4 峰 度 的 数据 。 




















图 2-4 


在 图 2-4 中 ， 极 值 是 -10 的 时 候 ，KURT 上 函数 结果 为 21.86， 下 面 观 察 一 下 当 极 值 学 围 在 -10 和 10 之 间 时 ，KURT 函 数 的 取 值 结 
果 ， 如 图 2-5 所 示 。 
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图 2-5 


从 图 2-5 可 以 看 出 ， 当 极 信 与 原 值 的 取 值 范围 比较 接近 的 时 候 ， 峰 值 会 接近 于 0， 而 极 值 与 原 值 的 范围 磊 距 比较 大 时 ， 峰 度 


值 会 变 大 ， 但 是 无 论 是 正极 值 还 是 负极 值 ， 峰 度 的 最 大 值 都 是 23 左 右 。 


偏 度 是 衡量 数据 对 称 性 的 一 个 重要 指标 ，EXCEL 中 对 应 的 销 数 是 SKEW， 它 用 于 比较 对 象 正 态 分 布 曲线 ， 如 图 2-6 所 示 ， 这 
是 一 个 左 偏 的 数据 图 。 


这 
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图 2-6 
在 图 2-6 中 ， 数 据 明显 左 偏 ， 其 偏 度 值 为 0.346， 再 来 看 看 图 2-7， 这 是 一 个 右 偏 的 数据 图 。 
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图 2-7 


在 图 2-7 中 ， 数 据 的 偏 度 为 -0.098， 此 时 数据 明显 右 偏 。 因 此 根据 偏 度 值 判 断 数 据 对 称 性 的 规则 如 下 : 


. 数据 服从 正 态 分 布 ， 偏 度 为 0。 


“ 数据 左 偏 ， 偏 度 二 0。 


数据 右 偏 ， 偏 度 二 0。 


变量 和 离散 变量 是 数据 分 析 中 经 常 碰 到 的 概念 ， 所 谓 连 续 变 量 就 是 一 个 区 间 里 可 以 任意 变化 的 量 ， 例 如 国民 收入 在 0 ~ 
100 万 之 间 波 动 时 ， 每 一 个 值 都 是 可 以 取 到 的 ;离散 变量 残 是 只 能 取 很 少数 的 几 个 值 ， 例 如 性 别 ， 融 是 男 和 女 ; 大 气 雾 才 的 等 级 
是 优 、 良 、 中 、 轻 度 污染 、 重 度 污染 、 爆 表 。 


离散 变量 内 部 也 有 区 分 ， 图 2-8 所 示 为 离散 型 变量 的 分 类 。 





二 元 离散 量 的 例子 很 多 ， 例 如 医生 关心 患者 是 否 得 病 ，“ 得 病 ” 和 “不 得 病 ” 残 是 二 元 离散 的 ; 企业 天 心 客户 的 购买 行 
为 ，“ 买 ”和 “不 买 ” 也 是 二 元 离散 的 。 

只 要 离散 变量 超过 两 个 ， 融 是 多 元 的 ， 人 在 “多 元 名 义 离 散 量 ” 这 个 概念 中 ，“ 名 义 ” 这 两 个 字 其 实 挺 难 理解 的 ， 它 的 英文 是 
nominal， 意 思 是 有 多 个 变量 ， 但 是 变量 之 间 并 没有 明确 的 排序 天 系 ， 例 如 企业 品牌 之 间 的 关系， 至 洁 有 亚 柔 、 伊 卡 璐 、 潘 妈 、 
海飞丝 等 品牌 ， 我 们 很 难说 这 些 品牌 之 间 有 明确 的 排序 关系 。 再 例如 ， 在 研究 城市 的 经 济 上 友 展 时 ， 北 京 、 上 海 、 南 京 、 武 汉 、 南 
宁 这 些 城市 之 间 ， 也 很 难说 有 明确 的 排序 关系 。 


多 元 有 序 则 不 然 ， 现 在 国内 空气 质量 不 好 ， 考 虑 PM2.5 指 数 ， 有 “严重 ;污染 ”、“ 中 度 污染 ”、“ 轻 度 污染 ”、“ 民 ” 
“ 优 ” 这 五 个 档次 ， 见 表 2-1。 


表 2-1 我 国 空 气质 量 级 别 和 PM2.5 指 数 对 应 表 


空气 质量 级 别 PM2.5 指数 


优 <50 

民 50<PM<=100 
轻 度 污染 101<PM<=150 
中 度 污染 151<PM<=200 
重度 污染 PM>200 


类 似 于 表 2-1 这 种 有 多 个 并 且 之 间 可 以 明确 排序 的 变量 就 是 多 元 有 序 。 

7. 因 变量 和 目 变 量 

因 变 量 ， 一 般 指 的 是 我 们 研究 和 关心 的 变量 ， 自 变量 一 般 就 是 其 发 生变 化 后 会 引起 其 他 变量 变化 的 变量 。 
因 变 量 和 自 变 量 说 起 来 很 容易 ， 但 是 在 实际 的 数据 分 析 中 ， 学 员 往 往 会 容易 混淆。 


我 企 上 课 的 时 候 ， 经 单 举 到 一 个 “销售 收入 和 和 销售 费用 ”的 例子 ， 并 且 提 出 了 一 个 判断 因 变 量 和 目 变 量 比较 简单 有 效 的 原 
则 ， 即 : 时 间 上 靠 前 的 残 是 自 变 量 ， 时 间 上 靠 后 的 丈 是 因 变量 。 在 实际 销售 工作 中 ， 通 常 是 先 有 销售 费用 ， 然 后 去 推销 ， 然 后 骨 
有 销售 收入 ， 因 此 销售 费用 是 自 变量 ,销售 收入 是 因 变 量 。 


2.1 基本 概念 和 术语 


2.1.1 基本 概念 


有 天 统计 和 数据 挖掘 的 概念 很 多 ， 以 下 拣选 一 些 单 用 的 基本 概念 进行 这 明 。 
1. 统 计 与 挖掘 


“统计 ”， 对 于 读者 来 说 可 能 并 不 陌生 ， 在 “统计 ”、“ 挖 掘 ”这 两 个 概念 中 ， 可 能 大 家 往往 会 名 得 “挖掘 ”更 难 理解 。 统 
计 和 挖掘 最 大 的 差别 在 于 : 统计 是 事先 设想 好 的 一 个 动作 ， 然 后 去 验证 已 。 例 如 移 假 设 销售 收入 和 销售 投入 之 间 有 关系， 公司 多 
投 钱 给 推销 人 员 去 拜访 客户 ， 融 能 获得 更 多 的 用 户 和 订单 ， 销 售 收入 融 能 上 升 ， 然 后 我 们 用 统计 的 模型 去 验证 已。 


另外 的 一 个 例子 是 : 社会 大 众 都 认为 吸烟 是 导致 肺癌 的 重要 原因 ， 然 后 大 家 找 来 了 一 些 肺癌 患者 的 相关 数据 ， 人 研究 表明 ， 同 
样 是 吸烟 者 ， 有 的 人 得 了 肺癌 ， 但 是 很 多 人 却 没事 ， 并 且 一 些 从 来 不 吸烟 的 女性 也 有 得 肺癌 的 。 这 样 ， 大 家 慢 慢 开始 怀疑 肺癌 和 
吸烟 之 间 的 正 向 关系 。 或 者 简单 地 说 ， 对 于 这 个 例子 ,统计 分 析 的 结论 是 固定 的 : 只 有 两 种 可 能 ， 一 是 肺癌 和 吸烟 有 关系 ， 二 是 
无 天 ! 


那么 数据 挖 握 是 怎么 样 的 呢 ? 


曾经 有 炒股 票 的 大 户 给 了 我 们 很 多 数据 ， 包 括 股 票 是 否 涨 停 、 是 否 放 量 、 前 几 天 的 各 种 指标 ， 涉 及 KDJ、RSI、MACD 等 ， 
客户 希望 我 们 帮 他 确定 : 具有 什么 样 特征 的 股票 是 比较 容易 涨停 的 ? 这 个 需求 怎么 实现 后 面 册 说， 这 里 想 要 说 明 的 是 ， 在 分 析 这 
个 数据 之 前 ， 是 没有 “假定 ”的 ,我 们 不 知道 最 后 做 出 来 的 结果 是 什么 样 的 。 这 就 是 数据 挖掘 ， 从 大 量 的 数据 中 通过 各 种 方法 找 
出 隐藏 于 其 中 的 信息 。 


2. 平 均值 


平均 值 似 乎 是 一 个 无 顷 讲 的 东西 ， 但 是 实际 上 在 数据 量 大 的 情况 下 ， 平 均值 反映 的 是 一 个 数据 “应 该 ”是 什么 。 记 得 之 前 曾 
看 过 一 份 报告 ， 说 上 海 成 年 男性 的 平均 身高 是 170.5 厘 米 ， 那 份 报告 的 样本 量 是 比较 大 的 ， 实 际 上 束 是 说 上 海 男性 的 身高 “应 
该 ”是 170.5 厘 米 。 


3. 标 准 差 
如 果 说 平均 值 反 映 了 数据 的 “中 轴线 ”， 那 么 标准 磊 束 反映 了 数据 的 波动 情况 ， 也 束 是 说 数据 是 波澜 不 惊 还 是 起 伏 不 定 。 


平均 值 + 标准 差 ” 仿 佛 束 是 一 对 结义 兄弟 ， 焦 不 离 孟 、 盏 不 离 灸 ， 我 们 经 弟 用 这 个 组 合 来 衡量 数据 的 变动 学 围 ， 如 图 2- 
1 (数据 的 平均 值 和 标准 差分 布 图 ) 所 示 。 


4. 正 态 分 布 


襄 起 正人 态 分 布 ， 我 自己 都 有 点 犯难 ， 因 为 正人 态 分 布 是 理论 性 比较 强 的 ， 这 本 书 的 初衷 是 侧重 应 用 而 不 是 理论 。 不 过 正 态 分 布 
实在 是 重要 ， 它 贯穿 了 统计 分 析 的 全 过 程 ， 几 乎 无 处 不 在 ， 正 仿 分 布 如 同 统 计 分 析 中 绕 不 过 去 的 一 堵 墙 ， 因 此 还 是 需要 解释 一 
下 
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图 2-1 。( 附 彩 图 ) 


理解 正人 态 分 布 ， 束 从 这 个 例子 开始 : 90 年 代 未 的 时 候 ， 移 民 还 比较 容易 ， 那 时 很 多 人 都 选择 了 移民 ， 那 么 ， 我 们 现在 来 看 
看 当时 移民 到 美国 、 加 拿 大 的 人 过 得 怎么 样 吧 ! 大 致 杭 理 了 一 下 ， 得 到 如 下 结论 : 


` 混 得 好 的 : 很 少 ， 应 该 说 是 极 少 数 。 在 当地 大 企业 里 面 做 得 不 错 ， 没 几 个 ; 自主 创业 成 功 的 ， 好 像 没有 。 当 然 这 里 说 的 上 自 
主创 业 是 正 儿 和 八 经 的 创业 ， 开 中 国 餐 馆 个 人 认为 不 算 创 业 。 


- 混 得 一 般 的 : 大 多 数 ， 就 是 在 企业 里 面 有 一 个 首 通 的 职位 ， 算 不 上 有 钱 , 但 是 温饱 不 想 。 


` 混 得 差 的 : 也 是 少数 ， 有 一 些 人 回来 了 ， 或 者 在 那 边 就 是 干 司机 、 导 游 或 体力 活 ， 这 里 丝毫 没有 瞧不起 这 些 职业 的 意思 ， 


但 是 对 于 在 国内 受过 良好 高 等 教育 的 人 来 说 ， 算 是 专业 不 对 口 吧 。 
简单 地 进 ， 融 是 混 得 好 的 和 混 得 很 兰 的 都 很 少 ， 大 多 数 都 是 普 普通 通 。 


其 实 这 种 规律 在 工作 和 生活 中 大 量 存 在 ， 如 果 跟 踪 统 计 一 下 大 学 毕业 生 的 友 展 情况 ， 大 致 也 是 这 样 ， 老 百姓 的 体重 、 身 高 、 
血压 、 血 糖 等 的 分 布 都 是 如 此 。 这 种 规律 残 是 我 们 经 弟 提 到 的 正 态 分 布 。 


如 果 把 这 个 规律 稍微 进 得 形象 一 点 ， 融 是 “两 头 小 ， 中 间 大 ”， 请 见 图 2-2 (数据 的 频率 和 正 态 分 布 图 ) 。 
让 我 们 简单 地 看 一 下 正 态 分 布 的 规律 : 


1) 两 边 基 本 是 对 称 的 。 
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2) 形状 像 一 个 倒 扣 的 “ 钟 ”。 
3) 高 峰 在 中 间 ， 越 到 中 间 ， 数 据 分 布 的 概率 越 大 ， 越 到 两 边 ， 概 率 束 越 小 。 


这 个 看 上 去 很 箔 单 的 正 态 分 布 ， 其 实 丈 是 统计 分 析 的 重要 基础 ， 实 际 上 很 多 统计 规律 都 是 建立 在 数据 正 仿 分 布 的 基础 上 的 。 
或 者 说 ， 如 果 数 据 不 是 正 仿 分 布 的 ， 那 么 很 多 统计 规律 则 是 不 成 立 的 。 


根据 正 态 分 布 的 规律 可 以 得 到 ， 绝 大 部 分 (95%) 的 数据 ， 是 分 布 在 居中 的 位 置 上 的 ， 只 有 很 小 概率 的 事件 分 布 在 正 态 曲 续 
两 人 出， 这 个 丈 是 假设 检验 中 的 单 人 出 和 双 侧 ,如 图 2-3 所 示 。 


图 去 区 正 态 分 布 
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5. 峰 度 和 偏 度 


峰 度 和 偏 度 算是 数据 分 析 中 比较 专业 的 概念 了 ， 峰 度 反 映 的 是 数据 中 极 值 的 情况 ， 请 看 图 2-4 峰 度 的 数据 。 
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图 2-4 


在 图 2-4 中 ， 极 值 是 -10 的 时 候 ，KURT 消 数 结果 为 21.86， 下 面 观察 一 下 当 极 值 范 围 在 -10 和 和 10 之 间 时 ，KURT 了 水 数 的 取 值 结 
， 如 图 2-5 所 示 。 
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图 2-5 


从 图 2-5 可 以 看 出 ， 当 极 信 与 原 值 的 取 值 学 围 比较 接近 的 时 候 ， 峰 值 会 接近 于 0， 而 极 值 与 原 值 的 范围 春 距 比较 大 时 ， 峰 度 
值 会 变 大 ， 但 是 无 论 是 正极 值 还 是 负极 值 ， 峰 度 的 最 大 值 都 是 23 左 右 。 


偏 度 是 衡量 数据 对 称 性 的 一 个 重要 指标 ，EXCEL 中 对 应 的 销 数 是 SKEW， 它 用 于 比较 对 象 正 态 分 布 曲线 ， 如 图 2-6 所 示 ， 这 
是 一 个 左 偏 的 数据 图 。 


7 
6 


> 


133791131l1s17192123232712931333337394143434749 5153 


图 2-0 


在 图 2-6 中 ， 数 据 明 显 左 偏 ， 其 偏 度 值 为 0.346， 再 来 看 看 图 2-7， 这 是 一 个 右 偏 的 数据 图 。 
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图 ”2-7 
在 图 2-7 中 ， 数 据 的 偏 度 为 -0.098， 此 时 数据 明显 右 偏 。 因 此 根据 偏 度 值 判断 数据 对 称 性 的 规则 如 下 : 
` 数据 服从 正 态 分 布 ， 偏 度 为 0。 
数据 左 偏 ， 偏 度 >0。 


“ 数据 右 偏 ， 偏 度 志 0。 


连续 变量 和 离散 变量 是 数据 分 析 中 经 冲 仙 到 的 概念 ， 所 谓 连 续 变量 残 是 一 个 区 间 里 可 以 任意 变化 的 量 ， 例 如 国民 收入 在 0 ~ 
100 万 之 间 波 动 时 ， 每 一 个 值 都 是 可 以 取 到 的 ; 离散 变量 残 是 只 能 取 很 少数 的 几 个 值 ， 例 如 性 别 ， 融 是 男 和 女 ; 大 气 雾 才 的 等 级 
是 优 、 良 、 中 、 轻 度 污染 、 重 度 污染 、 爆 表 。 


离散 变量 内 部 也 有 区 分 ， 图 2-8 所 示 为 离散 型 变量 的 分 类 。 








二 元 离散 量 的 例子 很 多 ,例如 医生 关心 患者 是 否 得 病 ，“ 得 病 ” 和 “不 得 病 ” 葡 是 二 元 离散 的 ; 企业 关心 客户 的 购买 行 
为 ，“ 买 ”和 “不 买 ” 也 是 二 元 离散 的 。 


只 要 离散 变量 超过 两 个 ， 融 是 多 元 的 ， 人 在 “多 元 名 义 离散 量 ” 这 个 概念 中 ，“ 名 义 ” 这 两 个 字 其 实 挺 难 理解 的 ， 它 的 英文 是 
nominal， 意 思 是 有 多 个 变量 ， 但 是 变量 之 间 并 没有 明确 的 排序 天 系 ， 例 如 企业 品牌 之 间 的 关系， 至 洁 有 亚 柔 、 伊 卡 璐 、 潘 即 、 
海飞丝 等 品牌 ， 我 们 很 难说 这 些 品牌 之 间 有 明确 的 排序 关系 。 再 例如 ， 在 研究 城市 的 经 济 友 展 时 ， 北 京 、 上 海 、 南 京 、 武 汉 、 南 
宁 这 些 城市 之 间 ， 也 很 难说 有 明确 的 排序 关系 。 


多 元 有 序 则 不 然 ， 现 在 国内 空气 质量 不 好 ， 考 虑 PM2.5 指 数 ， 有 “严重 污染 ”、“ 中 度 污染 ”、“ 轻 度 污染 ”、“ 民 ”、 
“ 优 ” 这 五 个 档次 ， 见 表 2-1。 


表 2-1 我 国 空 气质 量 级 别 和 PM2.5 指 数 对 应 表 


空气 质量 级 别 PM2.5 指数 
优 <50 
民 50<PM<=100 
轻 度 污染 101<PM<=150 
中 度 污染 151<PM<=200 
重度 污染 PM>200 


类 似 于 表 2-1 这 种 有 多 个 并 且 之 间 可 以 明确 排序 的 变量 束 是 多 元 有 序 。 

7. 因 变量 和 目 变 量 

因 变 量 , 一 般 指 的 是 我 们 研究 和 关心 的 变量 ， 目 变量 一 般 丈 是 其 友 生变 化 后 会 引起 其 他 变量 变化 的 变量 
因 变 量 和 目 变 量 说 起 来 很 容易 ， 但 是 在 实际 的 数据 分 析 中 ， 学 员 往 往 会 容易 混 清 。 


我 企 上 课 的 时 候 ， 经 单 举 到 一 个 “销售 收入 和 和 销售 费用 ”的 例子 ， 并 且 提 出 了 一 个 判断 因 变 量 和 目 变 量 比较 简单 有 效 的 原 
则 ， 即 : 时 间 上 靠 前 的 残 是 目 变 量 ， 时 间 上 靠 后 的 区 是 因 变 量 。 在 实际 销售 工作 中 ， 通 弟 是 乞 有 销售 费用 ， 然 后 去 推 峭 ， 然 后 再 
有 销售 收入 ， 因 此 销售 费用 是 目 变 量 ， 销 售 收入 是 因 变 


2.1.2 术语 


如 同 数据 分 析 的 概念 一 样 ， 数 据 分 析 的 术语 也 非常 多 ， 以 下 我 们 挑选 一 些 弟 用 的 术语 给 大 家 做 一 些 介绍 。 
1. 稳 定性 和 波动 性 


稳定 性 和 波动 性 是 一 对 有 反义词， 在 数据 分 析 的 很 多 领域 ,我 们 都 更 关注 数据 的 稳定 性 ， 比 如 ， 在 工业 生产 领域 ,我 们 关心 产 
品质 量 的 稳定 程度 ， 都 不 希望 产品 质量 一 会 儿 好 一 会 儿 坏 。 同 样 ， 在 教育 领域 ， 我 们 在 评估 教学 质量 时 ， 不 仅 仅 是 关注 相关 指标 
的 高 低 状 况 ， 也 关注 数据 的 稳定 程度 ， 例 如 学 生 对 教学 的 评分 忽 高 忽 低 ， 这 里 面 一 般 是 有 问题 的 。 关 于 数据 的 稳定 性 和 波动 性 ， 
在 本 书 的 第 6 章 “ 数 据 扫 搞 ” 中 ， 有 详细 的 叙述 。 


2. 效 据 变 形 


在 我 们 的 工作 中 ， 经 常会 磁 到 数据 中 存在 极 值 的 情况 ， 情 况 如 图 2-9 所 示 。 
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图 2-9 


在 图 2-9 中 ，6 月 份 的 数据 属于 极 大 值 ， 这 个 极 大 值 的 出 现 导 臻 了 其 他 月 份 的 数据 被 大 大 压缩 (压缩 在 90~10000 的 狭小 区 域 
中 了 ) ， 这 使 得 这 些 数据 之 间 的 相互 比较 变 得 比较 困难 ,例如 9 月 份 和 11 月 份 的 数据 谁 大 谁 小 ， 单 任 肉 眼 比较 难以 判断 。 


在 这 种 情况 下 ， 我 们 就 在 想 ， 是 否 可 以 把 上 述 的 数据 进行 一 个 变形 ， 既 保留 原来 数据 的 基本 特征 ， 然 后 也 让 数据 之 间 的 对 比 


变 得 比较 容易 ? 这 个 技术 束 是 数据 变形 技术 。 


关于 数据 变形 技术 ， 会 在 第 14 草 “高 级 绘图 技 I5” 中 详细 阐述 。 


要 讲 清 条 分 类 汇总 ， 首 先 要 理解 什么 是 明细 数据 和 概要 数据 ， 请 看 图 2-10。 


器 期 硼 售 党 妃 | 入 证 
201671 /1 
TREE 
2016z173| 电 商 
20167174| 一 市 | 1629 
2016z175| 超 市 
zo16/1/6| 超 市 | 3073 
2016z177| 电 商 
2ot16r178| 商 场 | 3839 
6 六 和 0 

201671710| 超 市 

2016/14/141| 超 市 。 

DE 

2016/1/13| 商 场 。 

2016/14/14| 超 市 。 

2 

201671716| 电 商 | 3014 


可 以 看 人 到， 图 2-10 是 业务 的 明细 数据 ， 明 细 数 据 束 是 细节 数据 的 体现 ， 也 就 是 说 ， 产 生 了 一 条 细节 的 统计 数据 ， 束 记录 下 
一 条 。 不 过 在 实际 工作 中 ， 我 们 也 经 常 天 心 汇 忆 数据， 例如 我 们 往往 关心 : 每 周 的 销售 数据 是 多 少 ? 每 种 销售 渠道 的 销售 数据 是 


多 少 ? 这 就 是 分 类 汇 忆 数据 。 









































4. 数 据 透 视 


数据 分 析 人 员 经 常会 说 “这 个 数据 要 透视 一 下 ”， 实 际 上 残 是 用 数据 透视 表 的 方式 来 看 数据 ， 虽 然 数据 分 析 属 于 统计 的 学 
畴 ， 但 是 EXCEL 数 据 透 视 表 在 数据 分 析 中 使 用 的 频率 非 囊 局。 


5. 相 天 分 析 


相关 分 析 和 关联 分 析 是 两 个 比较 容易 混淆 的 概念 ， 不 过 都 非常 重要 。 相 关 分 析 反 映 的 是 在 友 生 变动 时 ， 变 量 相互 之 间 的 “ 互 
动 ”天 系 ， 例 如 在 增加 销售 投入 时 ， 我 们 会 天 心 销售 收入 是 否 增长 ; 或 者 在 产品 的 成 本 上 升 时 ， 我 们 关心 产品 的 价格 是 否 变动 。 


再 强调 一 下 ， 相 关 分 析 反 映 的 是 数据 变动 量 之 间 的 关系， 而 不 是 数据 本 和 咏 。 
6. 天 联 分 析 


天 联 分 析 在 数据 分 析 领 域 是 一 个 特定 的 术语 ， 这 里 先 简单 地 介绍 一 下 购物 篮 。 大 家 都 习惯 了 去 超市 时 要 拿 一 个 购物 篮 或 者 推 
一 个 购物 车 ， 然 后 将 要 买 的 东西 放 在 购物 篮 或 者 购物 车 里 ， 那 么 超市 的 经 营 者 往往 会 天 心 一 个 问题 : 顾客 同时 会 购买 什么 东西 ? 
例如 一 个 顾客 购买 了 猪肉 之 后 会 不 会 买 半 菜 ? 买 了 牛奶 之 后 会 不 会 买 鸡蛋 ? 在 知道 了 这 些 信息 之 后 ， 超 市 的 经 营 者 能 用 来 干什么 
呢 ? 答案 : 他 们 可 以 做 关联 销售 啊 。 如 果 知 道 顾客 经 常 同时 购买 猪肉 和 序 菜 ， 束 可 以 做 捆绑 销售 。 


7. 数 据 拟 合 


在 解释 这 个 概念 之 前 ， 先 看 看 案例 文件 2.6 的 数据 ， 并 且 看 看 图 2-11 所 示 的 销售 收入 和 消费 费用 的 散 点 图 。 
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图 2-11 


如 果 希 望 知 道 销 售 收 入 和 销售 费用 之 间 的 关系 ， 怎 么 办 呢 ? 我 们 的 统计 学 家 很 聪明 ， 他 们 束 会 想 办 法 找到 一 条 曲线 ， 这 条 曲 
线 能 够 把 上 面 的 散 点 基本 上 都 “ 串 ”起 来 ， 见 图 2-12 数 据 拟 合 中 的 趋势 线 。 


当然 ， 这 条 曲线 也 有 一 个 方程 ， 找 到 这 样 的 曲线 及 其 方程 的 过 程 ， 融 是 曲线 拟 合 。 
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图 2-12 
8. 假 设 检验 
有 人 说 ,假设 检验 是 统计 学 中 的 最 基本 的 概念 ， 个 人 基本 表示 认同 ， 不 过 讲 清楚 假设 检验 ， 并 不 那么 容易 。 


首先 看 一 个 生活 中 的 例子 ,我们 中 的 大 部 分 人 都 是 “外 狐 协 会 ”的 ， 看 到 相貌 英俊 的 男人 或 者 清秀 美丽 的 女人 ， 都 会 产生 好 
感 。 不 过 是 哥 美 女 一 定 是 好 人 吗 ? 未 必 ! 可 能 打 过 交道 之 后 ， 你 的 印象 会 大 大 改观 。 


图 2-13 所 示 为 人 和 人 打交道 的 过 程 图 ， 看 到 帅哥 美女 从 而 心 生 好 感 ， 融 是 “假设 ”， 后 面 继 续 打交道 ， 融 是 “检验 ”， 合 
起 来 丈 是 “假设 检验 ”。 


继续 打交道 





图 2-13 
那么 如 何 检验 呢 ? 


先 做 假设 ， 如 果 检 验 的 结果 跟 其 假设 一 致 或 者 相差 不 多 ， 那 么 残 衣 定之 前 的 假设 ; 如 果 相 差 太 大 ， 例 如 ， 假 设 A 是 个 好 人 ， 
结果 我 们 友 现 他 表面 上 看 起 来 不 错 (是 个 影帝 ) ， 但 是 实际 上 品质 很 秋分， 那么 残 推翻 假设 ， 请 见 图 2-14 假 设 检验 。 


P>0.05 
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图 2-14 


2.2 选择 称 手 的 软件 工具 


数据 分 析 的 工具 有 很 多 种 (大 约 有 十 多 种 ) ， 每 种 都 有 其 优势 和 长 处 ， 也 有 它 的 缺陷 。 根 据 作者 的 经 验 ， 还 真 没有 一 种 工具 
软件 能 够 包 打 天 下 。 当 然 从 逻辑 上 讲 也 应 该 是 这 样 的 ， 如 果 仔 在 一 个 “万 能 ”的 软件 ， 那 么 其 他 的 软件 肯定 融 要 消 志 了 。 


笔者 基于 目 己 的 经 验 列 出 了 单 用 统计 分 析 软 件 的 利 浆 对 比 ， 见 表 2-2。 


表 2-2 各 种 主流 统计 分 析 软 件 的 优 缺点 分 析 


主流 的 办 公 软 件 


十 当 所 量 - 往 右 
a 针对 数据 量 大 、 重 复 夯 


动 多 的 应 用 场景 
入 门 级 的 数据 库 ， 适 用 
Access 于 比较 大 的 数据 量 查 询 的 
场合 
可 以 说 是 最 主流 的 统计 
SD 软件 ， 沫 单 式 操作 ， 能 人 够 
实现 几乎 所 有 的 统计 分 析 
功能 
一 款 与 EXCEL 无 颖 整 
XLSTAT 
合 的 分 析 插 件 ， 人 简单 实用 
专业 数据 挖掘 软件 ， 能 
Modeler 完成 几乎 所 有 的 数据 挖掘 
功能 
软 
R 专业 统计 编程 工具 
2.2.1 EXCEL 





缺 点 





数据 录入 方便 、 学 习 使 用 门槛 
低 、 能 够 满足 普通 工作 的 大 部 分 

能 够 胜任 几乎 所 有 的 EXCEL 
环境 里 面 的 工作 ， 还 能 作为 中 
控 平台 控制 PPT、WORD 


分 析 功 能 较 纶 、 数 据 存储 量 不 
够 大 、 不 能 应 付 大 数据 


对 于 非 计算 机 出 身 的 人 ， 上 手 
有 点 困难 


表 之 间 的 关系 很 方便 处 理 、 


查询 操作 界面 非常 方便 操作 难度 要 大 于 EXCEL 


个 出 比较 “ 曼 嗪 "， 经 常 将 “中 
间 过 程 ”都 输出 ， 初 学 者 往往 不 
知 所 云 ， 需 要 有 较 强 的 统计 基础 ， 
中 文 版 不 少 地 方 翻译 有 点 混乱 


国内 没有 好 的 中 文 版 本 ， 同 时 
分 析 输 出 不 是 太 规 范 


界面 美观 大 方 ， 功 能 强大 全 面 


EXCEL 环境 中 就 能 使 用 ， 不 
用 另 开 软 件 


与 SPSS 的 重合 度 比 较 高 ， 大 
部 分 功能 在 SPSS 中 可 以 实现 


图 形 化 界面 操作 ， 上 和 手 俐 单 


( 续 ) 


开源 软件 ， 基 本 免费 ， 功 能 
蝇 大 ， 编 程 包 随 处 可 见 ， 很 多 
统计 过 程 不 用 目 己 编程 序 ， 绘 
图 功能 非常 蝇 大 


对 于 非 计 算 机 出 身 的 人 人， 上手 
有 点 困难 


无 论 如 何 ，EXCEL 都 是 最 基础 的 数据 分 析 工 具 ， 绝 大 多 数 人 都 在 使 用 EXCEL， 起 码 在 使 用 EXCEL 来 收集 录入 数据 。 


从 专业 分 析 的 角度 来 看 ，EXCEL 的 分 析 功 能 太 弱 了 : 数据 透视 表 的 功能 还 不 错 ， 但 几乎 没有 像样 的 “统计 ”功能 ,图形 的 功 
能 也 很 弱 。 此 外 ， 昌 然 配 备 了 数组 等 比较 高 级 的 功能 ， 能 够 勉强 地 实现 编程 中 “ 往 环 ”的 功能 ,但 是 数据 量 比较 大 的 时 


候 ，EXCEL 会 变 得 很 慢 甚 至 不 能 忍受 。 


事实 上 ，EXCEL 是 否 够 用 ， 完 全 取决 你 手 里 的 数据 、 你 的 需求 。 如 果 你 手 里 的 数据 一 般 、 需 求 也 不 复杂 ，EXCEL 帮 不 多 能 满 
足 你 的 需求 ， 如 果 你 的 需求 很 大 并 且 需 求 复杂 ， 那 么 EXCEL 可 能 会 让 你 失望 。 


2.2.2 VBA 
个 人 认为 微软 Office 成 功 的 一 大 原因 ， 玖 是 将 高 级 语言 VB 整合 到 了 Office 中 ， 形 成 了 VBA。VBA 几 乎 可 以 做 所 有 数据 分 析 
类 的 事情 ， 有 人 将 聚 类 、 关 联 分 析 、 主 成 分 分 析 这 些 统计 分 析 算 法 都 用 VBA 实 现 了 ， 因 此 VBA 几 乎 无 所 不 能 。 


VBA 还 有 一 个 很 大 的 优点 是 : EXCEL 中 运用 VBA 控 制 Powerpoint 和 Word， 这 又 可 以 大 大 地 提高 工作 效率 ， 在 EXCEL 中 运用 
VBA 处 理 完 数据 后 ， 可 以 直接 生成 相应 的 PPT 和 Word 文 件 。 


2.2.3 Access 

Access 是 微软 提供 的 一 个 “ 半 专 业 ” 的 数据 库 ， 之 所 以 称 其 为 “ 半 专 业 ” 数 据 库 ， 是 因为 相对 于 MySQL、Oracle 这 些 专 业 
数据 库 而 言 ， 它 的 专业 性 确实 还 不 够 。 

Access 在 操作 灵活 性 等 方面 远 不 如 EXCEL， 按 照 笔 者 个 人 的 理解 ，ACCESS 优 势 主要 体现 在 以 下 三 个 方面 : 


1) 相对 于 EXCEL， 它 的 数据 存储 量 提高 了 ， 准 确 地 讲 ，ACCESS 数 据 库 最 大 可 以 存储 2GB 左 右 的 数据 ， 至 于 具体 能 放 多 少 
条 ， 那 就 要 看 数据 的 复杂 度 了 。 


2) 数据 一 怪 性 检查 方面 ， 效 率 特别 高 ， 例 如 A 表 中 有 BOM 料 号 “ABC123”， 我 们 要 检查 关联 的 B 表 中 是 否 有 该 料 号 ， 在 数 
据 量 比较 大 的 情况 下 ， 使 用 ACCESS 非 党 高 效 。 


3) 多 条 件 查 询 的 效率 很 高 ，EXCEL 几 乎 不 支持 多 条 件 查 询 ， 而 ACCESS 几 乎 是 为 图 2-15 所 示 的 多 条 件 查 询 而 生 的 。 


SE 


本 


生产 批 握 : 
计划 数 : 


已 加 所 图 呈 国 兰 图 总 图 左 加 本 国 关 
局 | | 由 
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2.2.4 SPSS 
SPSS 是 知名 度 最 高 的 专业 统计 软件 ， 据 我 所 项， 虽然 现在 做 数据 分 析 的 人 可 使 用 多 种 分 析 工 具 ， 但 SPSS 通 常 是 他 们 使 用 的 
第 一 球 统计 软件 。 


SPSS 的 优点 和 缺点 都 很 明显 ， 优 点 是 界面 美观 、 功 能 强大 ， 缺 点 是 界面 做 得 很 复杂 ， 是 一 款 比 较 复杂 的 软件 ， 以 至 于 一 些 
使 用 SPSS 多 年 的 人 都 说 “我 就 是 在 糊 里 糊涂 地 用 ” 。 


值得 一 提 的 是 ，IBM 在 收购 SPSS 之 后 ， 认 为 SPSS 过 于 学 术 化 ，IBM 想 对 SPSS 进 行 改造 以 增加 其 “商业 气息 。”， 因 此 就 搞 出 
来 一 个 “直销 ”模块 ( 见 图 2-16) ， 里 面 整合 了 几 个 比较 有 用 的 小 工具 ， 后 面 会 有 详细 介绍 。 


实用 程序 (U) 


Ea 于 本 必 天 





图 2-10 


2.2.2 XLSTAT 


XLSTAT 是 一 个 小 软件 ， 或 者 说 是 一 个 小 插件 ， 它 是 在 EXCEL 环 境 中 运行 的 ， 请 见 图 2-17。 


页 面 布局 公式 数据 京 阅 视图 加 载 项 XLSTAT 


因而 右 疝 和 四 四 国 


preparing Describing Visualizing For Modeling Correlation/Association Parametric Nonparametric 
data ~ data ~ data ~ datav data” tests ~ tests ~ tests ~ 


Discover explaln : | Test a hypothesis 





图 2-17 


XLSTAT 插 件 的 好 处 不 言 而 喻 ， 由 于 跟 EXCEL 环 境 无 颖 整合 ， 使 用 起 来 比较 方便 ， 能 够 实现 大 多 数 统计 分 析 的 功能 ， 但 是 缺 
点 也 很 明显 ， 数 据 量 一 旦 比较 大 ， 揪 件 运行 的 效果 就 比较 差 由 。 


因此 ，XLSTAT 束 是 个 小 工具 ， 不 大 能 作为 一 个 正规 的 统计 分 析 软 件 来 使 用 。 


1] 笔者 没有 仔细 测试 过 ， 留 给 读者 去 检测 。 


2.2.6 Modeler 


Modeler 的 前 身 是 美国 著名 的 CLEMENTINE 软 件 ， 现 在 也 被 I BM 收购 了 ， 成 为 IBM 软 件 的 一 员 。Modeler 是 专业 数据 挖掘 
软件 ， 它 包 售 了 关联 分 析 等 闭 名 的 数据 挖掘 算法 ， 而 这些 算 法 是 SPSS 所 不 包含 的 。 


Modeler 的 一 个 显著 的 优点 是 完全 图 示 化 ， 如 图 2-18 所 示 Modeler 的 分 析 界 面 。 





无 目标 


图 2-18 


个 人 认为 ， 专 业 统 计 挖掘 软件 能 够 做 到 几乎 完全 图 示 化 的 操作 ， 确 实 相当 不 容易 ，Modeler 也 受到 了 广大 非 统计 挖掘 专业 客 
户 的 欢迎 。 


2.2.7 ”Ri 语言 
R 是 近年 来 快速 友 展 的 一 个 统计 语言 ， 个 人 认为 其 最 大 的 好 处 之 一 束 是 开源 ， 在 商务 上 它 是 基本 免费 的 ， 这 对 于 广大 用 户 尤 
其 是 中 小 用 户 来 说 是 一 个 福音 。 


对 于 R 的 学 习 需 要 有 一 定 的 统计 基础 ，R 有 很 多 开 友 好 的 统计 包 ， 如 果 对 这 些 统计 包 很 熟悉 的 话 ， 你 会 友 现 R 实 际 上 有 一 个 共 
享 的 机 制 ， 丈 是 别人 可 能 老 早 束 把 你 要 做 的 统计 分 析 功 能 做 好 了 ， 你 只 要 和 直接 调用 就 可 以 了 ， 这 束 是 一 个 很 大 的 福音 。 


另外 ，R 的 绘图 功能 非常 强 ， 绝 对 是 专业 级 的 绘图 功能 。 


2.3 ”在 分 析 需 求 和 模型 之 间 搭 起 桥梁 


我 们 在 现实 工作 中 面临 的 都 是 实际 的 需求 ， 这 些 需 求 往往 乍 一 看 跟 数 据 分 析 并 没有 多 少 关 系 ， 例 如 : 
` 成 本 上 升 了 ， 对 价格 如 何 影响 ? 

:如何 降低 物流 成 本 ? 

-工厂 里 面 做 实验 ， 有 的 时 候 成 功 有 的 时 候 失 败 ， 原 因 何在 ? 

: 来 我 这 里 购买 的 客户 有 哪些 特征 ? 


看 到 这 里 ， 读 者 可 能 大 致 明 昌 了 ， 所 谓 的 数据 分 析 ， 一 开始 束 没 几 个 人 考虑 数据 ， 而 是 首先 考虑 业务 ， 然 后 再 往 数 据 的 地 方 


首先 考虑 识别 需求 ， 还 是 看 一 个 例子 吧 ， 一 个 北方 的 加 油 站 企业 ， 经 常 搞 各 种 活动 ， 大 家 都 知道 ， 加 ; 油 站 如 果 不 搞活 动 ， 生 
总 会 不 大 好 。 间 题 是 加 沿 站 经 常 搞 多 种 活动 ， 于 是 某 一 天 ， 企 业 的 领导 友 话 了 : 我 们 搞 了 这 么 多 活动 ， 效 果 怎 么 样 啊 ? 


好 了 ， 这 融 是 需求 ! 非常 实在 的 需求 ! 


2.3.2 ”分解 需求 


下 一 步 要 分 解 需求 ， 我 们 要 去 做 以 下 的 事情 : 


1) 收集 没有 活动 时 ， 各 加 油 站 的 加 油 数据 。 
2) 收集 有 各 种 活动 时 ， 各 加 ; 油 站 的 加 油 数 据 。 
需求 分 解 守 了， 数据 也 收集 完了 ， 丈 形成 了 图 2-19 加 ; 油 站 的 加 油 量 数 据 。 


N00 
93 大 气 油 直 障 4 角 /大 ，97 大 气 油 直 降 4 角 /大 ， 柴 油 直 降 3 角 大 
_ 201493 |1776239| 元 | ez 
-201494 | 18879 | 天 | 四 
汽油 直 降 4 角 / 着 ，97 杖 气 油 直 降 4 角 / 升 ， 柴 油 直 降 3 角 有 大 
mm | zz | 
_ 201497 | 2305306| 无 | 星期 9 
20149l8 | 1711112| 无 | 用 期 ~ 
93 术 气 油 直 降 4 角 / 升 ，97 太 气 油 直 降 4 币 / 升 ， 柴 油 直 降 3 角 大 
93 桩 气 油 直 障 4 角 着，97 大 气 油 直 降 4 角 /有 厦 ， 柴 油 直 障 3 角 有 大 
2014913 |17374566| 无 | en 
2014/9114 | 1819658| 无 | 县 期 9 
2014/9115 | 2323999| 无 | 星期 一 

93# 气 油 直 障 4 角 /天 ，97# 气 油 直 障 4 角 /大 ， 柴 油 直 降 3 角 / 厦 


图 2-19 





2.3.3 选择 工具 和 模型 
对 于 统计 的 急 学 者 来 况 ， 选 择 工 具 和 模型 几乎 是 最 难 的 ， 统 计 软 件 有 很 多 ， 统 计 模型 融 更 加 多 了 ， 各 种 异型 之 间 的 区 分 ， 绝 
对 是 一 言 难 尽 的 事情 。 需 要 长 期 基于 统计 工具 的 学 习 和 积 容 ,才能 够 比较 自如 地 选择 模型 。 


另外 ， 从 笔者 长 期 运用 工具 的 经 验 来 看 ， 很 多 人 选择 统计 模型 有 其 “习惯 ”和 “偏好 ”， 有 的 人 习惯 使 用 相关 分 析 模 型 ， 有 
的 人 则 喜欢 决策 树 模 型 ， 不 一 而 足 。 


第 3 章 ”数据 玉 集 与 整理 


巧 妇 难为 无 米 乙 炊 ， 对 于 数据 分 析 而 言 ， 数 据 收 集 是 极其 重要 的 一 步 。 我 曾经 听 到 有 人 说 过 ， 只 要 有 数据 ， 分 析 嘛 ， 总 归 做 
得 出 来 的 ， 我 个 人 基本 同意 这 个 观 后 。 


但 大 多 数 情况 下 ， 我 们 面临 的 都 不 是 现成 的 数据 ， 需 要 有 一 个 企业 外 或 企业 内 的 数据 收集 过 程 ， 例 如 安 观 经 济 数据 的 收集 、 
市 场 调查 数据 的 采集 等 ， 下 面 残 来 看 看 数据 采集 需要 注意 的 几 条 重要 原则 。 


3.1 ”数据 米 集 的 儿 条 重要 原则 


3.1.1 要 足够 “ 复 洒 ” 


先 说 一 个 跟 客 户 接触 的 例子 。 一 个 国企 学 员 课 间 休 息 时 来 问 我 : “老师 ， 我 们 领导 经 常 批评 我 ， 说 我 们 写 的 工作 报告 (数据 
报告 ) 太 简单 了 ， 你 能 看 看 我 们 写 的 报告 吗 ? ”我 到 他 电脑 前 面 看 了 一 下 ， 报 告 确 实 所 简单 的 ， 感 党 束 是 几 折 个 字 吧 ， 骨 看 看 数 
据 ， 大 概 只 有 6 列 的 样子 ， 难 怪 领导 不 满意 。 


可 见 ， 在 及 集 数 据 的 时 候 ， 必 须要 注意 数据 的 复杂 性 ， 如 同 1.1 书 所 襄 ， 要 综合 考虑 数据 量 、 复 杂 度 、 颗 粒度 等 因素 。 


都 说 通 过 实例 说 明 体 会 更 深 ， 下 面 再 来 看 另 一 个 例子 。 数 年 前 ,我 参与 了 一 家 建筑 涂料 公司 友 展 规划 的 制作 ， 该 公司 希望 通 
过 对 各 种 信息 数据 进行 分 析 ， 从 而 对 未 来 ?年 中 国 的 产品 友 展 市 场 份 额 有 一 个 整体 规划 和 了 解 。 


让 我 们 看 看 他 们 收集 了 哪些 数据 ， 如 图 3-1 所 示 。 
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图 3-1 


可 以 看 到 ， 要 收集 的 数据 不 少 ， 但 事实 上 ， 想 要 搞 清 楚 企 业 在 未 来 数 年 中 可 能 出 现 的 市 场 态 势 ， 即 使 这 些 数 据 都 能 够 顺利 找 
到 ， 可 能 仍然 是 不 够 的 。 


3.1 ”数据 米 集 的 儿 条 重要 原则 


3.1.1 要 足够 “复杂 


先 襄 一 个 跟 客 户 接触 的 例子 。 一 个 国企 学 员 课 间 休 息 时 来 问 我: “老师 ， 我 们 领导 经 单 批评 我 ， 训 我们 写 的 工作 报告 (数据 


报告 ) 太 简单 了 ， 你 能 看 看 我 们 写 的 报告 吗 ? ”我 到 他 电脑 前 面 看 了 一 下 ， 报 告 确 实 所 简单 的 ， 感 党 束 是 几 特 个 字 吧 ， 表 看 看 数 
据 ， 大 概 只 有 6 列 的 样子 ， 难 怪 领导 不 满意 。 


可 见 ， 在 采集 数据 的 时 候 ， 必 须要 注意 数据 的 复杂 性 ， 如 同 1.1 书 所 襄 ， 要 综合 考虑 数据 量 、 复 杂 度 、 颗 粒度 等 因素 。 


都 说 通过 实例 说 明 体 会 更 深 ， 下 面 再 来 看 另 一 个 例子 。 数 年 前 ,我 参与 了 一 家 建筑 涂料 公司 友 展 规划 的 制作 ， 该 公司 希望 通 
过 对 各 种 信息 数据 进行 分 析 ， 从 而 对 未 来 5 年 中 国 的 产品 友 展 市 场 份额 有 一 个 整体 规划 和 了 解 。 


让 我 们 看 看 他 们 收集 了 哪些 数据 ， 如 图 3-1 所 示 。 
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可 以 看 到 ， 要 收集 的 数据 不 少 ， 但 事实 上 ， 想 要 搞 清 楚 企 业 在 未 来 数 年 中 可 能 出 现 的 市 场 态 势 ， 即 使 这 些 数 据 都 能 够 顺利 找 
到 ， 可 能 仍然 是 不 够 的 。 


3.1.2 要 足够 “ 细 " 


“ 细 ” 实 际 上 束 是 颗粒 度 的 意思 ， 稍 微 有 点 数据 收集 经 验 的 人 大 概 都 知道 ， 要 收集 年 度 的 数据 其 实 相 对 比较 容易 ， 如 果 粒 度 
为 季度 ， 可 能 束 会 有 点 问 题 了 ， 到 月 则 很 难 了 ， 人 至 于 每 周 的 数据 ， 那 束 更 不 要 想 了 。 


不 过 ， 也 不 是 每 个 公司 都 如 此 ， 曾 有 证 券 公 司 做 定量 分 析 的 人 说 过 ， 证 券 数据 分 析 虽 然 不 好 做 ,但 是 有 一 点 好 ， 起 码 不 用 为 
数据 友 秋 ， 因 为 证 券 系统 可 以 提供 最 细 到 1 分 钟 的 数据 ， 目 然 ， 任 何 周期 的 数据 和 指标 都 可 以 自己 计算 得 出 。 


3.1.3 ”要 有 “跨度 


这 里 讲 的 “跨度 ”涉及 两 个 方面 ,一 是 数据 的 时 间 跨 度 ， 二 是 数据 的 属性 跨度 。 

中 国有 名 老话 区 是 “路 遥 知 马力 ， 日 久 见 人 心 ”， 在 数据 方面 也 是 如 此 。 数 据 的 时 间 跨 度 有 时 候 也 称 为 “数据 年 龄 ”， 对 于 
同样 的 数据 捐 标 而 言 ， 各 “数据 年 龄 ”分 别 为 ?年 和 1 年 ， 郑 距 其 实 是 挺 大 的 。 数 据 年 龄 越 长 ， 往 往 越 能 襄 明 问题 。 

属性 跨度 稍微 难 理解 一 点 ， 实 际 上 残 是 尽量 要 找 不 同 的 数据 ， 如 图 3-1， 我 们 找 了 安 观 经 济 的 数据 ， 例 如 GDP、 经 济 友 展 增 
速 ; 也 找 了 全 国人 口 变 迁 、 流 动 的 数据 ， 还 找 了 竞争 对 手 市 场 占有 率 的 数据 等 。 总 之 ， 所 找 的 数据 越 “ 杂 ”， 数 据 跨度 束 越 大 ， 
往往 也 葡 越 能 说明 问题 。 


3.1.4 ”要 有 可 行 性 


数据 收集 的 一 个 重要 思考 维度 残 是 可 行 性 ， 做 过 数据 采集 的 人 都 知道 ， 有 时 候 数据 采集 的 难度 之 大 ， 会 让 你 党 得 这 个 事情 都 
做 不 下 去 了 。 


我 供职 过 的 企业 曾经 给 中 国 移动 的 几 个 省 分 公司 做 过 供应 商 ， 有 一 次 A 省 分 公司 让 我 们 了 解 移动 客户 的 情况 ， 并 且 给 出 了 一 
个 “客户 画像 ” (这 企 当时 是 一 个 流行 的 术语 ， 直 到 现在 还 有 客户 提 及 ) ， 那 个 时 候 不 像 现 在 ， 手 机 号 码 是 实名 制 的， 当时 中 国 
移动 的 各 个 省 分 公司 的 全 球 通 手 机 号 比例 一 般 都 在 20% 以 下 ， 大 部 分 的 手机 用 尸 都 是 神州 行 和 动感 地 市 的 ， 我 们 根本 不 知道 用 户 
寺 征 ， 甚 至 不 知道 客 尸 的 性 别 。 这 种 情况 下 ， 要 进行 数据 收集 是 很 困难 的 。 


还 有 一 个 是 营销 活动 数据 的 收集 案例 ,我们 曾经 为 中 国 移动 的 某 省 分 公司 收集 过 营销 活动 的 数据 ， 目 的 是 想 知 道 移动 做 了 营 
销 活动 之 后 ， 客 尸 的 反应 情况 。 当 时 移动 做 业务 营销 的 主要 万 式 是 短信 和 群 友 ， 判 断 客 己 对 营销 活动 有 反应 的 终极 标准 是 客 尸 订 制 
了 该 业务 ， 当 然 也 有 一 些 客户 是 到 移动 营业 厅 或 拨打 移动 客服 号 1860 (当初 的 客服 号 ， 现 在 改 成 10086) 咨询 了 该 业务 。 可 以 
想象 ， 在 当时 的 条 件 下 收集 这 样 的 数据 是 何其 困难 。 


3.2 用 “逐步 推进 去” 推测 需要 的 数据 

在 与 客户 接触 的 过 程 中 ， 我 们 发 现 了 一 种 比较 简单 的 方法 : 逐步 推进 法 。 通 过 该 方法 可 以 推测 需要 的 数据 。 逐 步 推进 法 一 般 
包括 几 个 步 又; 一 是 总 量 ， 二 是 结构 ， 三 是 时 间 序 列 ， 四 是 颗粒 度 。 下 面 以 我 做 过 的 一 个 项 目 为 例 来 进行 说 明 。 

客户 的 需求 是 : 是 否 有 办 法 降低 企业 的 物流 成 本 ? 

拿 到 这 种 需求 ， 使 用 逐步 推进 法 ， 首 先 要 考虑 企业 的 物流 成 本 是 由 哪些 内 容 构成 的 。 


在 收集 数据 时 ， 从 各 个 数据 部 门 拿 到 了 运输 成 本 、 库 存 成 本 、 包 六 成 本 、 涂 镍 成 本 这 四 大 类 ， 关 于 每 类 成 本 都 有 一 些 细 项 的 
疯 明 。 

有 了 这 四 类 成 本 之 后 ， 进 一 步 关心 的 是 数据 的 时 | 间 跨 度 ， 从 该 企业 推行 信息 化 之 后 ， 可 以 拿 到 2011 年 至 2014 年 这 4 年 的 数 
据 ， 从 时 间 跨 度 上 看 ， 能 够 拿 到 4 年 的 数据 还 是 说 得 过 去 的 。 


再 往 下 倒 推 ， 则 是 数据 的 颗粒 度 ， 这 一 项 数据 的 情况 就 不 那么 理想 了 ， 我 们 只 能 获得 月 度数 据 ， 即 使 跟 委托 方 的 各 部 门 反复 
沟通 ， 最 后 友 现 也 只 能 获得 月 度 的 数据 。 


另外 一 个 倒 推 的 方向 是 获取 更 多 的 成 本 细 项 。 可 是 我 们 遗憾 地 友 现 ， 该 企业 在 物流 成 本 的 细 项 方面 ， 数 据 也 不 多 。 


以 上 就 是 一 个 项 目 数据 收集 的 全 部 过 程 ， 由 于 数据 规划 的 原因 ， 很 多 数据 一 旦 在 第 一 时 间 疫 有 收集 ， 以 后 基本 区 很 难 收集 起 
来 了 ， 因 此 一 个 合适 的 企业 数据 规划 还 是 相当 重要 的 。 


3.3 ” 耗 时 耗 力 的 数据 整理 过 程 


数据 的 整理 往往 是 一 个 痛苦 的 耗 时 耗 力 的 过 程 ， 有 人 曾经 以 做 饭菜 来 打 比 方 : 做 过 饭菜 的 人 都 知道 ， 下 油 锅 炒 菜 的 时 间 其 实 
并 不 长 ， 几 分 钟 融 够 卫 ， 而 做 荣 之 前 的 买 荣 、 泡 荣 〈 用 水 浸泡 菜 去 除 农药 ) 、 洗 菜 、 切 菜 、 配 菜 等 会 消耗 2 ~ 3 小 时 。 这 和 做 数 
据 分 析 很 类 似 ， 做 一 个 聚 类 分 析 ， 如 果 选 择 的 模型 得 当 并 且 电 脑 运行 很 快 的 话 ， 几 分 钟 甚至 几 秒 钟 束 做 完了 ， 但 是 要 把 聚 类 的 数 
据 全 部 收集 完毕 ， 很 可 能 要 化 几 天 其 全 几 个 月 的 时 间 。 


数据 分 析 之 前 的 数据 整理 工作 要 做 哪些 事情 呢 ” 我 们 看 看 以 下 逻辑 。 
(1) 尽 可 能 保证 数据 是 对 的 


在 锻 误 的 数据 上 分 析 得 出 的 结论 往往 是 错误 的 ， 因 此 要 尽量 保证 数据 的 人 付 确 性 ， 重 复数 据 以 及 空 行 、 空 询 、 异 单 值 、 不 符合 
逻辑 关系 的 数据 都 会 造成 数据 质量 的 降低 ， 要 想 办 法 剔除 这 些 数据 。 全 少 也 要 对 这 些 数据 有 所 警醒 


(2) 尽 可 能 保证 数据 能 用 得 上 


通常 情况 下 ， 数 据 中 都 会 有 很 多 缺失 值 ， 面 对 这 种 情况 ， 删 除 肯 定 是 个 简单 的 处 理 方法 ， 但 问题 是 ， 这 样 操作 会 丢失 很 多 数 
据 和 信息 。 我 曾经 对 某 个 项 目 进行 测算 ， 如 果 用 “人 简单 粗暴 ”的 方法 去 删除 包含 缺失 值 的 数据 ， 那 么 大 概要 损失 70% 左 石 的 数 
据 ， 这 样 一 来 ， 根 据 30% 左 右 的 数据 分 析 得 出 来 的 结论 肯定 是 不 准确 的 。 


(3) 要 保证 数据 的 格式 能 够 直接 用 于 分 析 


数据 有 多 种 组 织 方式 ， 统 计 和 挖 据 中 的 很 多 算法 模型 都 需要 针对 固定 格式 来 做 ， 比 如 对 应 分 析 、 关 联 分 析 等 ， 因 此 免不了 要 
做 格式 转换 ， 有 时 ， 为 了 实现 对 大 数据 量 的 分 析 ， 还 需要 进行 编程 。 


3.3.1 重复 、 空 行 、 空 | 六 据 删 除 

以 案例 文件 3.1 为 例 ， 如 何 对 数据 进行 重复 值 的 排查 呢 ? 可 综合 运用 三 种 方法 进行 删除 ， 其 中 ，EXCEL 提 供 了 两 种 方法 ,不 
过 都 是 直接 删除 ， 而 SPSS 中 的 重复 值 处 理 可 以 先 标识 然后 再 删除 ， 相 对 更 合理 一 点 。 下 面 分 别 讲 讲 这 三 种 方法 。 

(1) EXCEL 中 的 “删除 重复 项 " 


首先 ， 选 择 “ 数 据 ” 中 的 “删除 重复 项 ”， 如 图 3-2 所 示 。 


| 数据 电 念 标题 山 ) 


成 绩 








图 3-3 


请 注意 ， 图 3-3 中 的 “编号 ”、 “成 绩 ” 之 前 的 勾 选 残 是 重复 值 的 判断 条 件 ， 意 思 惑 是 如 果 编 号 和 成 绩 都 相同 ， 那 么 残 是 重 
复 值 。 我 们 可 以 用 是 人 否 勾 选 来 灵活 决定 判断 重复 值 的 条 件 。 


所 击 “ 确 定 ”后 会 弹出 图 3-4 所 示 的 对 话 框 。 





图 3-4 


删除 重复 项 的 操作 简单 易 行 ， 但 是 有 一 个 重大 缺陷 ， 融 是 它 会 直接 将 重复 值 删除 ， 这 有 点 “简单 粗暴 ” ， 更 理想 的 方法 是 先 
标注 一 下 ， 竺 操作 人 员 碍 看 确认 之 后 ， 再 删除 比较 好 。 因 此 在 做 这 个 操作 之 前 最 好 先进 行 数 据 备 份 。 


(2) 高 级 筛选 


很 多 人 都 知道 高 级 饰 选 是 用 来 做 多 条 件 的 复杂 筛选 的 ， 但 是 知道 用 高 级 科 选 来 删除 数据 的 人 却 不 多 ， 下 面 会 介绍 这 个 方法 。 
首先 进入 高 级 饰 选 界面 ， 如 图 3-5 所 示 。 





图 3-5 


在 高 级 筛选 界面 中 ， 选 择 源 数 据 区 域 和 将 要 复制 的 数据 块 位 置 ， 如 图 3-6 所 示 。 


特别 要 注意 的 是 ， 图 3-6 左 下 角 的 “选择 不 重复 的 记录 ”一 定 要 勾 选 ， 然 后 点 击 确定 ， 操 作 即 完成 。 


辐 福原 有 有 区 域 显 水 师 靶 销 果 是 ) 
夯 闪 师 选 稍 果 县 制 天 其 届 伍 二 避 ) 


列表 区 域 [L): | Sheet3!1$A$1 :$B$34 





“3 = 




















条 件 区 域 E): | 
复制 到 位 ): | sheet3!$D$1 


选择 直 重 县 的 记 孙 四 














相对 于 删除 重复 项 ， 高 级 往 选 连 个 输出 提示 都 没有 ， 这 让 初次 使 用 的 人 往往 感到 有 点 没 头 没 脑 ， 起 码 应 该 有 一 个 操作 告诉 我 
处 理 了 多 少数 据 、 删 除了 多 少数 据 吧 。 因 此 ， 蜗 级 筛选 这 个 操作 也 需要 谨 愤 ， 要 事先 做 好 数据 备份 。 


(3) SPSS 中 的 处 理 重复 值 


在 SPSS 中 有 专门 处 理 重 复 值 的 模块 ， 请 见 图 3-7。 


局 (D】 转换 (T) “分 析 (A) 直销 






' [局 定义 变 量 属性 (V) 
] 划 设 置 未 知 测量 织 别 (L) 上 
上 园 复制 数据 属性 (CG) 
: 上 新 建设 定 届 性 (8). 
局 定义 日 期 IE) 
定义 守重 响应 集 (M)- 





进入 “标识 重复 个 案 ” 模 块 后 ， 会 弹出 如 图 3-8 所 示 的 界面 。 


定义 匹配 个 案 的 依据 (D)- 








在 匹配 组 内 的 排序 标 攻 (DT 


升序 (C) 
名 降序 (E) 





匹 且 和 分 类 变量 数 : 2 


要 创建 的 变量 


基本 个 案 措 趟 神 【1= 唯 一 或 基本 ' 0= 重 大 ) 仙 
图 每 组 中 的 最 后 一 个 个 案 为 基本 个 案 信 ) 
回 每 组 中 的 第 一 个 个 案 为 基本 个 案 (H) 
根据 指 泵 符 的 值 进行 病 选 (F) 





名 称 (N): 瀑 后 一 个 基本 个 案 


连续 计算 每 个 组 合 中 的 匹配 个 案 FT 
(0= 非 匹配 个 案 ) 名 称 (M): | 匹 本 顺序 





将 匹配 个 案 移 全 文件 顶端 (A) 
下 不 已 创建 变量 的 让 不 类 宰 {V) 


图 3-8 


如 同 EXCEL 中 的 “删除 重复 项 ”，SPSS 中 也 需要 选择 若干 字段 作为 判断 是 否 重 复 的 依据 ， 图 3-8 中 选择 了 手机 号 码 和 
ARPU， 代表 手机 号 码 和 ARPU 都 相同 才 表 示 数 据 重复 。“ 基 本 个 案 指 示 符 ”中 的 1 表示 唯一 值 ，0 表 示 重 复 值 。 勾 选 左 下 和 角 
的 “将 匹配 个 案 移 至 文件 顶端 ”表示 会 将 有 重复 的 数据 移 到 文件 最 上 妆 。 


最 后 的 输出 结果 如 图 3-9 所 示 。 这 样 的 输出 结果 是 比较 合理 的 ， 可 以 先 观 察 骨 删除 ， 比 直接 删除 要 安全 。 


最后 一 个 基本 个 诗 _ 


13901711147 
13901711147 
13901711180 
13901711180 
13901711111 
13901711112 
13901711113 
13901711114 





(4) 删除 空 行 


以 案例 文件 3.3 为 例 ， 为 了 删除 空 行 ， 先 用 EXCEL 进 行 排序 ， 如 图 3-10 所 示 。 


ET TE 


列 排序 依据 
sn 





图 3-10 


排序 结束 后 ， 删 除 空 行 即 可 ， 如 图 3-11 所 示 。 
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图 3-11 


以 上 删除 空 行 的 方法 打 乱 了 数据 的 顺序 ， 若 想 不 打 乱 数 据 的 顺序 ， 可 及 用 辅助 列 的 方法 ， 如 图 3-12 所 示 。 
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图 3-12 


也 残 是 先 按照 编号 进行 排序 ， 删 除 空 行 后 ， 再 按照 “次序 ” 进 行 排 序 ， 最 后 删除 “次序 ” 辅 助 询 。 


3.3.2 ”缺失 值 的 填充 和 分 析 


数据 中 的 缺失 值 天生 的 原因 很 多 ， 有 的 是 原始 数据 中 束 没 有 ， 有 的 是 漏 了 ， 有 的 则 是 因 种 种 原因 没有 收集 ; 还 有 填写 者 故意 
不 填 的 ， 例 如 市 场 调 查 的 问卷 中 ， 涉 及 收入 、 对 竞争 对 手 如 何 看 待 等 敏感 性 问题 时 ， 残 经 单 会 出 现 缺 漏 的 情况 。 还 有 一 种 比较 特 
殊 的 情况 是 ， 最 近 的 数据 还 没有 统计 出 来 ， 例 如 现在 是 2017 年 ， 可 能 2017 年 的 Q1 的 数据 还 没有 出 现 ， 甚 至 有 可 能 2016 年 的 Q4 
的 数据 都 还 没有 出 来 。 


之 前 已 经 说 过 ， 对 于 缺失 信 数 据 ， 一 般 不 能 采用 “和 们 早 粗 暴 ” 的 删除 方法 ， 而 应 尽 可 能 地 进行 填 元 ， 下 面 束 介绍 一 些 填充 的 
万 法 。 


(1) 手工 填充 
以 案例 文件 3.4 为 例 ，2011 年 和 2012 年 的 数据 都 是 完整 的 ，2013 年 的 数据 有 一 些 缺 漏 ， 这 个 时 候 有 几 种 填充 思路 : 
1) 按照 2013 年 销量 的 平均 值 做 填充 ， 这 是 比较 简单 的 做 法 。 


2) 用 历年 同月 的 平均 值 做 填充 ， 例 如 2013/12/21 的 数据 是 空缺 的 ， 融 拿 2011 年 和 2012 年 销量 的 平均 值 来 填 苑 ， 这 是 比较 
精准 的 做 法 。 


以 上 的 填充 技术 非常 简 蛙 ,不 再 帝 述 ， 直 接 用 average 函 数 即 可 。 
(2) 利用 3Pss“ 著 换 缺 失信 ”进行 填 宛 


案例 文件 3.5，SPSS 中 有 两 处 菜单 功能 涉及 缺失 值 ,一 是 “转换 ”中 的 “替换 缺失 值 ”， 二 是 “分 析 ” 中 的 “缺失 值 分 
析 ”。 “替换 缺失 值 ” 中 可 以 用 多 种 替换 方法 ， 以 案例 文件 3.5 为 例 来 看 一 下 ， 先 在 图 3-13 所 示 的 菜单 找到 “替换 缺失 值 ”。 
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图 3-13 


然后 ， 进 入 “ 昔 换 缺失 值 ”界面 ， 如 图 3-14 所 示 。 
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图 3-14 


在 替换 的 方法 中 ， 有 序 刘 均值 、 临 近 点 的 均值 、 临 近 点 的 中 位 数 等 多 种 方法 可 以 选择 ,一般 选择 “序列 均值 ”和 “临近 点 的 
均值 ”比较 多 一 些 。 


(3) 利用 SPSS “缺失 值 分 析 ” 进 行 填 宛 


对 于 案例 文件 3.6， 在 分 析 分 组 和 年 龄 这 两 个 因素 对 分 析 指 标的 影响 时 ， 可 洲 用 SPSS 的 线性 回归 来 处 理 ， 如 图 3-15 所 示 。 
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图 3-15 


然后 进入 线性 回归 的 界面 进行 设置 ， 如 图 3-16 所 示 。 
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图 3-16 
得 到 的 结论 如 图 3-17 所 示 。 


藉 狐 ” 


[和 | 





图 3-17 


由 于 体重 组 和 年 龄 的 检验 p 值 都 小 于 0.05， 因 此 得 到 结论 : 体重 组 和 年 龄 对 于 分 析 指 标 都 有 着 显 阁 的 影响 。 


石 对 案例 文件 3.7 〈 访 案例 有 缺失 值 ) 执行 同样 的 操作 ， 得 到 的 输出 结果 如 图 3-18 所 示 。 


其 
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my 上 于 [天 三 | ， | 
als bal 


[常量 ) 了 123 2 138 
2.274 1.197 359 
4161 056 542 





9. 因 变 量 : 分 析 指 标 


图 3-18 


从 图 3-18 所 示 的 输出 可 以 看 出 ， 在 有 缺失 值 的 情况 下 ， 体 重组 的 sig 是 0.076 > 0.05， 因 此 得 到 结论 : 体重 组 对 于 分 析 指 标的 
影响 不 显著 ， 而 年 龄 对 于 分 析 指 标的 影响 显著 。 


现在 考虑 如 何 填充 数据 ， 在 图 3-19 所 示 的 界面 选择 “缺失 值 分 析 ” 
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广义 线性 样本 








图 3-19 


SPSS 的 缺失 值 分 析 中 ， 常 用 的 有 EM 和 回归 这 两 种 方式。 下 面 首先 展示 EM 方式 填充 缺失 值 的 万 法 ， 如 图 3-20 所 示 。 
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图 。3-20 


在 图 3-20 所 示 的 界面 中 ， 点 击 “EMhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16308/OEBPS/Text/...”， 进 入 如 图 3-21 所 示 的 界面 。 
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图 3-21 


将 填充 好 的 缺失 值 放 到 | 数据 集 a 中 ， 殊 完成 了 相应 的 操作 。 


同样 也 可 以 用 回归 方法 实现 缺失 值 的 填充 ， 如 图 3-22 所 示 。 
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图 3-22 


为 了 比较 EM 和 回归 这 两 种 填充 方法 的 优 务 ， 仍 旧 做 数据 回归 来 比较 EM 和 回归 这 两 种 填充 方式 的 差异 ， 请 注意 ， 这 里 出 现 
了 两 个 “回归 ”,， 前 面 一 个 “回归 ”是 数据 分 析 的 回归 方法 ， 后 面 一 个 “回归 ”是 SPSS 里 面 的 一 种 填充 算法 。 


其 禾 ” 











a. 内 变量 : EM 


图 3-23 


芭 狐 ” 
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图 3-24 


图 3-23 是 采用 EM 方法 填充 数据 后 进行 回归 分 析 的 输出 结果 ， 图 3-24 是 采用 “回归 ”方法 填充 数据 后 进行 回归 分 析 的 输出 结 
果 。 可 以 看 到 ，EM 回 归 的 两 个 检验 P 值 0.008 和 0.004， 分 别 小 于 0.023 和 0.012， 这 说 明 EM 填 充 缺 失 值 的 质量 要 高 于 回归 填充 缺 
失 值 。 


3.3.3 ”数据 间 逻 辑 的 排 坦 


重复 值 、 空 行 ( 列 ) 、 缺 失 值 这 些 都 是 比较 明显 的 错误 ， 而 数据 之 间 的 钦 辑 天 系 则 是 比较 隐 税 的 问题 。 案 例文 件 3.9 给 出 了 
对 啤酒 饮用 习惯 进行 调查 后 所 记录 的 数据 ， 先 来 看 看 年 龄 和 学 历 这 两 组 数据 ， 单 独 看 这 两 组 数据 并 无 可 疑 之 处 ， 但 是 考虑 到 逻辑 
天 系 融 不 尽 然 了 。 


从 目前 我 国 大 学 的 情况 看 ， 一 般 本 科 生 毕业 在 21 ~ 23 岁 ， 硕 士 生 毕 业 在 25 ~ 27 岁 ， 如 果 考 虑 学 历 和 年 龄 之 间 的 逻辑 关系， 
再 对 案例 文件 3.9 进 行 排查 ， 看 看 情况 如 何 。 这 里 使 用 条 件 格式 进行 排查 ， 如 图 3-25 所 示 。 








图 3-25 


进行 条 件 格 式 后 的 界面 如 图 3-26 所 示 。 


选择 规则 类 型 @) 
> 基于 各 自 值 设置 所 有 单元 格 的 格式 

> 只 为 包含 以 下 内 容 的 单元 格 设置 格式 
> 仅 对 排名 靠 前 或 靠 后 的 数值 设置 格式 
> 仅 对 高 于 或 医 于 平均 值 的 数值 设置 格式 
*” 仅 对 唯一 值 或 重复 值 设置 格式 

* 使 用 公式 确定 要 设置 格式 的 单元 格 


编辑 规则 说 明 到 ) 
为 侍 合 此 必 式 的 值 1 站 格式 
=AND (C2<=25, D2%=5) 





图 3-20 


在 图 3-26 中 ， 选 择 目 定义 公式 ， 在 公示 栏 中 输入 公 陈 : =AND (C2<=25，D2>=5) ， 也 束 是 当 C2 (年 龄 ) 小 于 等 于 25， 
并 且 学 历 大 于 等 于 5? (5 是 硕士 ，6 是 博士 ) 的 时 候 ， 将 编号 填 宛 为 红色 ， 绪 果 如 图 3-27 所 示 。 
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图 3-27 
从 图 3-27 可 以 看 出 ,编号 为 11 和 18 的 ， 其 学 历 和 年 龄 之 间 的 逻辑 关系 不 正常 ， 需 要 重点 天 注 和 纠正 。 
根据 业务 关系 来 排便 数据 的 例子 还 很 多 ， 这 需要 读者 结合 上 自己 的 业务 逻辑 努力 去 排查 判断 。 


此 外 ， 数 据 合 并 也 是 数据 准备 的 重要 内 容 ， 这 将 在 4.1 世 中 详细 叙述 ， 在 此 不 再 重复 。 


3.4 ”数据 量 太 大 了 怎么 办 


早期 做 培训 的 时 候 ， 很 少 有 学 员 来 问 我 数据 量 的 事情 ， 因 为 大 家 的 数据 量 都 比较 小 ， 这 几 年 来 不 同 了 ， 经 常 有 学 员 来 问 我 : 
老师 ， 作 者 的 数据 有 300 多 万 ， 怎 么 办 ? 还 有 学 员 说 ,我 们 要 做 客 己 画像， 数据 量 有 1000 多 万 ， 我 们 平时 都 是 放 在 MySQL 里 面 
做 的 。 


数据 量 太 大 了 ， 怎 么 办 ? EXCEL 的 一 个 工作 表 只 能 存放 1048576 行 数据 ， 也 就 是 104 万 多 一 点 ， 数 据 多 了 如 何 处 理 呢 ? 


3.4.1 ”站 到 数据 库 中 处 理 


EXCEL 只 是 一 个 办 公 软 件 ， 在 处 理 大 数据 量 方面 ， 它 远 远 没有 专业 的 数据 库 给 力 。 专 业 数 据 库 能 够 处 理 比较 大 的 数据 量 , 并 
且 处 理 速度 快 ， 在 处 理 数据 见 余 等 方面 效率 高 ， 远 非 EXCEL 可 比 。 对 于 专业 的 数据 库 ， 个 人 的 一 个 感 嘻 是 ,现在 用 ACCESS 的 人 
越 来 越 少 ， 越 来 越 多 的 人 转向 MySQL， 除 了 MySQL 有 具有 开源 免费 的 特征 之 外 ， 它 还 能 和 R 或 者 Python 组 合 使 用 ， 这 应 该 也 是 一 
个 很 重要 的 原因 。 


3.4.2 用 专业 工具 处 理 

专业 的 统计 分 析 和 挖 所 工具 虽然 不 是 数据 库 ， 但 是 其 数据 的 吞吐 量 也 远 高 于 EXCEL。 以 下 以 SPSS 和 MODELER 为 例 来 说 明 
它们 是 如 何 处 理 大 数据 量 的 。 

(1) SPSS 处 理 大 数据 量 


这 里 以 案例 文件 3.10.1 和 3.10.2 进 行 说 明 ， 这 两 个 文件 的 数据 量 均 超过 了 60 万 行 ， 现 在 要 将 这 两 个 文件 合并 ， 合 并 后 的 数据 
会 超过 120 万 行 ，EXCEL 已 经 无 法 容纳 ， 因 此 考虑 采用 SPSS 处 理 。 


打开 SPSS 软 件 ， 依 次 选择 “文件 ”一 “打开 ”一 “数据 ”， 如 图 3-28 所 示 。 


文件 (FE) ”编辑 (E) ”视图 VW) 数据 (D0) ”转换 (D) 分 析 (A) 直 
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图 3-28 


然后 ， 在 硬盘 上 找到 要 打开 的 EXCEL 文 件 的 路 径 ， 并 打开 ， 如 图 3-29 所 示 。 
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图 3-29 


同 理 打开 第 二 个 文件 。 在 第 一 个 打开 的 数据 集中 依次 选择 “数据 ”一 “合并 文件 ”一 “添加 个 案 ”， 如 图 3-30 所 示 。 
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图 3-30 
































然后 选择 已 经 打开 的 数据 集 ， 继 续 合并 ， 如 图 3-31 所 示 。 
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图 3-31 


由 于 两 个 文件 的 字段 相同 ， 都 是 “编号 ”和 “尺寸 ”， 因 此 图 3-31 的 新 的 活动 数据 集中 ， 变 量 只 有 “编号 ”和 “尺寸 ”两 
种 ， 操 击 确定 ， 完 成 合并 。 


为 了 验证 上 面 的 数据 ， 依 次 点 击 “ 分 析 ” 一 “ 摘 述 统计 ”一 “ 摘 述 ”， 如 图 3-32 所 示 。 








图 3-32 
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i il 表 状态 | 1378832 


图 3-34 


可 以 看 到 ， 合 并 后 的 数据 量 为 1378832， 超 过 了 EXCEL 工 作 表 的 最 大 容量 。 
(2) Modeler 处 理 大 数据 量 


与 SPSS 一 样 ，Modeler 也 可 以 处 理 大 数据 ， 以 案例 文件 3.11.1 和 3.11.2 进 行 说 明 。 打 开 Modeler 软 件 ， 在 “ 源 ” 中 选择 
EXCEL 节 点 ， 选 择 文件 路 径 ， 点 击 确定 。 打 开 上 述 两 个 文件 后 ， 选 择 “ 奶 加 ”节点 ， 将 两 个 文件 的 数据 进行 合并 ， 如 图 3-35 所 
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图 3-35 


为 了 验证 以 上 合并 的 结果 ， 选 择 “ 统 计量 ”节点 ， 从 而 验证 合并 后 的 数据 量 ， 如 图 3-36 所 示 。 


目 - 成 绩 
自 - 统 计量 








图 3-30 


可 以 看 到 ， 以 上 数据 的 总 和 达到 了 1465700。 


3.4.3 ”数据 抽样 


如 果 数 据 量 比较 大 ， 也 可 以 采用 数据 抽样 的 方法 ，SPSS 和 Modeler 都 有 专门 做 数据 抽样 的 方法 ， 在 EXCEL 中 也 可 以 实现 ， 
比如 ， 可 以 用 随机 数 函 效 进行 抽样。 
以 下 以 SPSS 和 EXCEL 为 例 来 说 明 如 何 做 数据 抽样 。 


在 SPSS 中 打开 数据 文件 ， 在 “数据 ” 主 标 签 中 选择 “选择 个 案 ”， 如 图 3-37 所 示 。 


数据 (D) ”转换 IT) ”分 析 (A) 
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图 3-37 


接 图 3-37， 操 击 “ 选 择 个案 ”， 如 图 3-38 所 示 。 
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图 3-38 


在 图 3-38 中 ， 选 择 “随机 个 案 样本 ”， 如 图 3-39 所 示 。 
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图 3-39 


图 3-39 中 提供 了 几 种 常用 并 且 比 较 简 单 的 数据 抽样 方法 ， 如 果 对 抽样 技术 要 求 不 是 很 高 ， 这 几 种 基本 也 够 用 了 。 


在 EXCEL 中 的 数据 抽样 方法 有 两 种 ， 最 简单 的 就 是 用 randbetween 水 数 ， 例 如 我 们 有 50 万 行 数 据 ， 希 望 以 1 : 100 的 比例 进 
行 抽样 ， 用 randbetween (1，500000) 生成 5000 个 随机 数 即 可 。 另 外 一 个 方法 是 在 EXCEL “数据 分 析 ” 模 块 中 选择 “ 抽 
样 ”， 如 图 3-40 和 图 3-41 所 示 。 
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图 3-40 


在 图 3-41 的 抽样 方法 中 ， 周 期 法 是 每 隅 一 个 固定 的 间 隅 残 抽 取 一 个 数据 ， 随 机 法 则 是 在 全 量 数 据 中 随机 抽取 数据 。 
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图 3-41 


随 着 计算 机 计算 速度 的 持续 提高 ， 数 据 抽样 其 实在 数据 分 析 中 用 得 并 不 多 ， 因 为 如 果 不 是 上 亿 的 数量 级 ， 还 是 希望 做 全 量 数 
据 的 分 析 。 


第 4 章 ”数据 分 析 的 基础 : 制 表 (上 ) 


数据 分 析 的 起 步 是 做 数据 表 ， 如 果 我 们 连 简洁 高 效 的 数据 表 都 做 不 好 ， 数 据 分 析 也 束 无 从 谈 起 了 。 


做 表 的 目的 也 是 多 种 多 样 的 ， 有 的 是 为 了 数据 汇总 ， 有 的 是 为 了 将 关心 的 数据 筛选 出 来 ， 有 的 则 是 为 了 研究 汇总 数据 而 不 是 
明细 数据 。 


4.1 以 数据 合并 为 目标 的 制 表 


襄 到 数据 合并 ， 首 先 要 提 一 下 “数据 同 构 ”的 概念 。 同 构 的 意思 是 指数 据 里 分布 在 不 同 的 工作 簿 或 不 同 的 工作 表 中 ， 但 数据 
的 表 头 结构 是 相同 的 。 不 同 构 的 数据 要 实现 合并 是 很 困难 的 。 


下 面 依次 看 跨 工作 表 的 合并 以 及 跨 工作 簿 的 数据 合并 。 


4.1.1 ” 跨 工 作 表 合并 


在 案例 文件 4.1 里 有 5 周 的 数据 ， 这 些 数据 分 布 在 该 工作 簿 的 5 个 不 同 的 工作 表 中 ， 并 且 每 个 工作 表 的 结构 是 相同 的 ， 即 第 一 
行 是 周一 到 周 日 ， 第 一 询 是 品名 ， 如 图 4-1 所 示 。 


现在 要 实现 快速 地 跨 工作 表 合 并 ， 可 采用 EXCEL 提 供 的 合并 计算 方法 操作 步骤 ， 如 下 : 


周三 周 日 





周 - = | 


| 
| 
一 一 
日 | 
梧 二 
- 
二 
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1) 新 建 工 作 表 。 
2) 在 新 的 工作 表 中 ， 选 择 A1 位 置 。 


3) 选择 “数据 ”中 的 “合并 计算 ”， 如 图 4-2 所 示 。 


视图 ”加 就 项 


$1 了 


| 
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4) 依次 选择 5 个 工作 表 的 内 容 ， 由 于 第 一 行 和 第 一 多 都 是 表 头 ， 因 此 要 勾 选 图 4-3 左 下 角 的 “ 首 行 ”和 “最 左 列 ”， 勾 
选 “ 创 建 措 向 源 数 据 的 链接 ”可 以 做 到 源 数 据 的 内 容 在 更 新 时 ， 汇 忌 表 的 数据 会 目 动 刷新 。 如 图 4-3 所 示 。 
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岗 | 最 左 列 (L) 他 | 建 指向 ; 厌 数 据 的 链接 (8) 
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该 结果 按照 分 级 的 方式 实施 了 数据 的 汇总 。 


在 跨 工 作 表 的 数据 汇总 中 ， 也 有 采用 阔 数 进行 汇总 的 ， 但 是 那 基 本 属于 手工 操作 的 方式 ， 操 作 烦 琐 耗 时 ， 因 此 不 推荐 。 


4.1.2 ” 跨 工 作 秒 合 


对 跨 工作 簿 的 数据 进行 合并 时 ， 要 达到 两 个 目的 : 一 是 数据 合并 ， 二 是 能 够 实现 数据 联动 ， 也 就是 当 原 始 数 据 变动 的 时 候 , 
汇 忌 数据 也 跟着 变动 。 


原始 数据 见 案 例文 件 4.2、 案 例文 件 4.3、 案 例文 件 4.4。 在 案例 文件 4.5 中 ， 有 图 4-5 所 示 的 汇总 表 。 


现在 要 在 该 表 中 填 入 北京 、 上 海 、 广 州 等 地 各 个 季度 的 数据 ， 并 得 到 相应 的 汇 忌 数据 。 这 可 以 及 用 选择 性 粘贴 中 的 “粘贴 链 


记 ” 功能， 


打开 案例 文件 4.2， 如 图 4-6 所 示 。 
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选中 图 4-6 中 的 标 色 部 分 ， 将 其 复制 到 案例 文件 4.5 表 中 的 相应 位 置 。 以 下 分 别 以 EXCEL 2007 版 以 及 EXCEL 2010 版 来 讲述 选 
择 性 粘贴 中 的 操作 万 法 。 


(1) EXCEL 2007 的 操作 方法 
进入 “选择 性 粘贴 ”的 界面 ， 点 击 左下 角 的 “粘贴 链接 ”， 如 图 4-7 所 示 。 


随后 可 以 看 到 结果 的 公 陈 栏 中 是 图 4-8 所 示 的 样子 可 以 看 到 ， 这 样 的 复杂 陈 子 ， 如 果 目 己 手工 去 敲 ， 是 很 困难 的 事情 。 
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(2) EXCEL 2010 版 及 以 后 版 本 


在 拷贝 源 数据 之 后 ， 选 择 操 作 ， 如 图 4-9 所 示 。 





























选择 图 4-9 中 最 右边 的 那个 类 似 于 锚 链 的 图 表 ， 残 是 “粘贴 链接 ”， 操 击 即 可 。 


粘贴 链接 的 复制 方式 可 以 实现 源 数据 和 目标 数据 之 间 的 联动 ， 这 个 效果 请 读者 自行 验证 ， 不 再 莹 述 。 


4.2 ”以 数据 师 选 为 目标 的 制 表 


在 信息 和 数据 量 庞大 的 今天 ， 我 们 通 弟 希望 直接 看 到 目 己 想 看 的 数据 ， 而 不 是 看 全 量 的 数据 ， 因 此 ， 要 采用 各 种 数据 饰 选 扩 
术 来 帮助 我 们 制 表 ， 以 下 介绍 几 种 电 选 技术 : 普通 烽 选 、 高 级 科 选 、 计 算得 选 以 及 函 数 科 选 。 


普通 筛选 用 得 最 频繁 ， 它 看 似 比较 简单 ， 但 知 用 得 不 当 ， 很 可 能 效果 不 太 理想 。 


在 讲解 第 选 之 前 ， 首 先 来 解释 一 下 EXCEL 中 常用 的 数据 类 型 。 一 般 情 况 下 ， 在 EXCEL 中 会 磁 到 4 种 (有 时 候 也 称 为 3+1) 数 
据 类 型 : 文本 、 数 字 、 日 期 、 逻 辑 ， 其 中 文本 、 数 字 、 日 期 这 三 种 类 型 是 最 常见 的 ， 人 远 辑 值 束 是 true 和 false 两 种 ， 在 本 书 的 后 
续 讲解 中 ， 经 弟 按 照 义 本、 数字 、 日 期 、 人 逻辑 值 的 顺序 来 进行 说 明 。 下 面 介 绍 往 选 的 万 法 。 


(1) 文本 型 的 往 选 


氮 击 谢 选 标 记 ， 残 可 以 看 到 文本 型 禾 选 的 标记 ， 如 图 4-10 所 示 。 
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文本 入 选中 有 “等 于 ”“、“ 不 等 于 ”、“ 开 头 是 ”、“ 结 尾 是 ”、 “包含 ”、 “不 包含 ”等 璇 选 条 件 。 这 里 以 “结尾 是 ”， 
例 来 说 明 ， 如 图 4-11 所 示 。 
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图 与 由 0 


| 可 用 ?代表 单个 字符 
| 用 * 代表 任意 多 个 字符 





图 4-11 


按照 文本 的 最 后 一 个 字符 是 “ 代 ” 来 进行 筛选 ， 得 到 结果 如 图 4-12 所 示 。 
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图 4-12 














其 他 的 文本 筛选 条 件 均 比 较 人 简单 ， 不 骨 蒙 述 。 


(2) 数字 型 的 饰 选 


点 击 图 4-12 中 DD 列 的 筛选 标记 ， 可 得 到 图 4-13。 
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图 4-13 


图 4-13 中 的 筛选 条 件 比较 简单 ， 以 “ 介 于 ”为 例 ， 如 图 4-14 所 示 。 


大 于 或 等 于 图 0 上 项 
加 与 和 加 或 四 


小 于 或 等 于 [mw| [800 


可 用 ? 代表 单个 字符 
用 * 代表 任意 多 个 字符 





图 4-14 


在 筛选 大 于 或 等 于 300 并 且 小 于 等 于 600 的 津贴 数 后 ， 得 到 结果 如 图 4-15 所 示 。 
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| 这 人 lg 理 “| P ||458 
| 二 班 册 | 助理 | SP || 403 
| 全 本 共 | 荐 人 | MP || 416 
| | SP ||354 


1989/7/28| 2016/11/25 
197817/31| 2016/12/5 


| 焦 君 颖 | 直 代 | P | 
| 万 雄 查 间伐 | MP | 





(3) 日 期 的 凯 选 


日 期 的 第 选 是 普通 筛选 中 最 有 技术 合 量 的 筛选 ， 选 中 图 4-16 中 E 列 的 表 头 ， 点 击 筛选 标记 。 
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图 4-10 


可 以 看 到 ，EXCEL 提 供 了 比较 丰 语 和 强大 的 日 期 科 选 功能 ， 让 我 们 可 以 比较 灵活 地 禾 选 数据 ， 这 泽 往 选 条 件 如 果 让 我 们 目 己 
来 做 ， 还 是 比较 困难 的 。 


4.2.2 ” 遍 级 肇 选 


在 介绍 了 文本 、 数 字 、 日 期 这 三 种 基本 的 笑 选 之 后 ， 现 在 来 看 看 遍 级 饰 选 . 


随 看 对 数据 分 析 讨 论 的 深入 ， 我 们 会 不 断 地 问 一 个 问题 ， 这 个 方法 的 应 用 场景 是 什么 ”为 了 讲 清 和 苑 高 级 疾 选 的 应 用 场景 ， 抑 
回顾 一 下 普通 筛选 的 应 用 场景 。 以 数字 型 往 选 的 图 (图 4-14) 为 例 ， 在 该 图 的 场景 下 ， 是 针对 一 列 数据 (津贴 ) 的 两 个 条 件 进 
行 筛选 的 。 如 果 数 据 筛 选 的 对 象 超过 1 列 呢 ?这 个 时 候 怎 么 办 ? 普通 的 数据 筛选 肯定 无 法 满足 我 们 的 要 求 ， 这 时 束 需 要 用 到 高 级 


请 记 住 : 如 果 人 往 选 的 操作 对 象 不 止 一 列 数据 ， 那 束 需 要 及 用 高 级 筛选 。 在 实际 的 工作 中 ， 我 们 经 常会 磁 到 比较 复杂 的 删 选 情 
况 ， 例 如 某 个 HR 经 理 要 往 选 出 满足 如 下 条 件 的 员工 参加 公司 组 织 的 体检 : 


入 职 满 一 年 ， 并 且 近 两 年 没有 参加 体检 的 ，; 
- 体检 频率 应 比较 高 的 特殊 部 门 员工 ; 
: 年 龄 超过 一 定 岁数 的 员工 ， 例 如 超过 55 岁 的 员工 。 


对 于 以 上 比较 复杂 的 条 件 ， 如 果 按 照 每 一 个 条 件 进行 筛选 ， 然 后 再 数据 合并 ， 是 一 件 比较 烦琐 的 事情 ， 而 且 在 科 选 结果 的 合 
并 等 方面 也 容易 出 错 。 但 高 级 响 选 可 以 一 次 性 地 实现 这 个 过 程 。 


以 案例 文件 4.7 为 例 ， 假 设 要 对 其 进行 筷 选 ， 要 筛选 的 条 件 为 满足 以 下 两 个 条 件 之 一 。 
条 件 1: 数量 大 于 等 于 40， 转 入 库存 为 true。 
条 件 2: 找 出 日 期 在 2006/5/1 之 后 的 数据 。 


对 上 述 要 求 进行 剖析 : 首先 ， 条件 1 和 条 件 2 之 间 是 “或 ”的 关系 ,也 就 是 说 两 个 条 件 中 有 一 个 成 立 束 可 以 了 。 其 次 ， 在 条 
件 1 内 部 是 “与 ”的 天 系 ， 即 “数量 大 于 等 于 0” 和 “ 转 入 库存 为 true” 这 两 个 条 件 之 间 是 “与 ”的 关系 。 


了 解 了 相关 性 以 后 ， 进 行 如 下 相应 的 操作 。 
1) 复制 表 头 到 表格 中 空 的 位 置 。 


2) 把 相应 的 条 件 录入 到 表格 中 ， 如 图 4-17 所 示 。 


EE nl 下 必 
单位 成 本 | 接收 日 期 | 转 入 库存 | 库存 


2>20D6A571 





图 4-17 


请 注意 ， 图 4-17 中 ， 如 果 条 件 在 不 同 的 行 上 ， 那 么 条 件 之 间 的 关系 是 “或 ”的 关系 ， 如 果 条 件 是 在 一 个 条 件 内 部 ， 就 
是 “与 ”的 关系 。 


3) 进入 高 级 筛选 界面 ， 如 图 4-18 所 示 。 
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图 4-18 


所 击 图 4-18 中 的 “高 级 ”进入 如 图 4-19 所 示 的 界面 。 
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图 4-19 
以 下 是 对 界面 中 各 项 的 说 明 。 
` 列表 区 域 : 要 筛选 的 原始 数据 区 域 。 
` 条 件 区 域 : 筛选 条 件 所 构成 的 区 域 。 
` 复制 到 : 选择 一 个 复制 的 位 置 。 


所 击 “ 确 定 ” 后 ， 得 到 往 选 结果 如 图 4-20 所 示 。 


和 


计 





图 4-20 


从 上 述 过 程 可 以 看 出 ， 高 级 疾 选 可 以 针对 多 列 数 据 、 多 条 件 的 烽 选 条 件 进行 操作 ， 只 要 把 握 好 往 选 条 件 乙 间 的 与 、 或 天 系 ， 


高 级 饰 选 的 效率 会 很 局 。 


4.2.3 ”计算 请 选 
如 果 况 马 级 饰 选 可 以 实现 多 询 多 条 件 的 数据 饰 选 的 话 ， 那 么 结合 阔 数 的 计算 和 饰 选 几 乎 可 以 实现 所 有 的 功能 ， 不 过 在 介绍 计算 
筛选 的 功能 之 前 ， 首 先 介绍 一 下 人 逻辑 函数 的 意义 。 


通过 案例 文件 4.8 可 以 看 到 三 个 逻辑 函数 and、or、not 阔 数 的 具体 用 法 ， 请 注意 ， 人 在 EXCEL 中 ，and 的 表达 方式 为 : 
and (逻辑 表达 陈 1， 逻 辑 表 达 式 2， 逻 辑 表达 了 式 3.……) ，or 阔 数 也 是 如 此 。 


由 


逻辑 为数 的 结果 只 有 两 个 : True 和 False， 有 的 人 习惯 了 叫 真 和 假 ， 其 含义 是 一 样 的 。 


下 面 看 计算 饰 选 ， 以 案例 文件 4.9 进 行 启明 ， 侯 选 的 要 求 如 下 : 竹 选 零件 的 尺寸 在 22 ~ 25 公 分 、 误 磊 在 35% 以 上 的 零件 编 


所 谓 计算 饰 选 ， 吏 是 采用 逻辑 函数 的 结果 (true 或 者 false) 作为 往 选 判断 的 标准 。 下 面 是 操作 步骤 。 
1) 选择 一 个 单元 格 ， 做 往 选 表 头 。 
2) 在 单元 格 之 下 ， 写 入 函数 =AND (B2>=22, B2<=25, C2>=5%) 。 


3) 同样 进入 “ 总 级 饰 选 ”界面 ， 选 择 “ 列 表 区 域 ”、“ 条 件 区 域 ”、 “复制 到 ”的 方法 与 前 面 完全 一 致 ， 得 到 如 图 4-21 所 


示 的 结果 。 
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图 “4-21 


计算 饰 选 实际 上 是 在 实现 一 个 循环 过 程 ， 以 上 的 逻辑 函数 判断 是 从 第 二 行 开 始 的 ， 但 是 当 我 们 做 筛选 的 时 候 ， 实 际 上 操作 覆 
了 整个 数据 范围 ， 以 应 丁 解 牛 的 方式 来 看 一 下 计算 第 选 的 过 程 : 


1) 当 我 们 在 列表 区 域 中 选择 了 源 数据 区 域 时 ，EXCEL 已 经 知道 了 计算 饰 选 工作 的 沁 围 ， 对 应 案例 文件 4.9， 融 是 从 第 2 行 到 


第 108 行 。 


2) 根据 条 件 ，=AND (B2>=22，B2<=25，C2>=5%) ,如果 是 true， 束 俑 选 出 来 并 且 拷 贝 到 输出 位 置 ， 如 果 是 false， 
则 不 贤 选 。 


3) 依次 跑 循 环 ， 假 设 第 三 行 就 是 =AND (B3> =22，B3<=25，C3> =59%) ,如果 是 true， 就 筛选 出 来 并 且 拷 贝 到 输出 位 
置 ; 如 果 是 false， 则 不 筛选 。 随 后 是 第 4 行 、 第 5 行 ……… 


4) 一 直 走 到 第 108 行 ， 循 环 结束 。 


以 上 这 种 循环 的 工作 原理 也 适用 于 后 面 要 讲 的 条 件 格式 。 


4.2.4 ”为数 斋 选 

在 案例 文件 4.10 中 ， 第 一 个 工作 表 是 手机 的 品牌 和 价格 ， 第 二 个 工作 表 可 以 根据 关键 字 检 索 手 机 品牌 和 价格 ， 例 如 在 B1 单 
元 格 中 输入 “ 华 ”， 束 可 以 检索 出 包含 “ 华 ” 的 手机 品牌 和 价格 。 

解析 一 下 公式 : 


=|FERROR (VLOOKUP ("*"&$B$1&"*", OFFSET (手机 ! $A$1, IFERROR (MATCH ($A3, 手机 ! $A: 
$A, ) ,1000) ,，, 1000, 2) , COLUMN (A: A) ，) ,，"") 


下 先进 行 模糊 查询 ， 残 是 在 B1 单 元 格 中 输入 “ 华 ” 后 ， 实 际 上 是 按照 “ 华 ”” 来 查询 的 ， 也 残 是 说 只 要 是 包含 “ 华 ” 的， 
都 在 查询 乙 询 。 


Offset 消 数 给 出 了 模糊 查询 的 学 畴 ， 第 一 次 是 用 A3 的 位 置 在 第 一 个 工作 表 的 A 列 中 进行 查询 ， 查 询 到 的 是 “手机 ”在 工作 表 
中 的 位 置 A1 处 ， 得 到 的 查询 表 是 手机 在 工作 表 中 以 A1 开 始 的 1000 行 2 列 的 区 域 。 


vlookup 遂 数 则 根据 模糊 便 询 的 结果 获得 手机 名 称 。 


消 数 处 理 的 关键 是 MATCH 消 数 中 的 $A3， 当 公式 被 拖 着 向 下 滚动 时 ， 即 变 成 $A4、$A5、$A6， 这 样 vlookup 中 查询 的 表 束 
不 断 往 下 延伸 ， 保 证 每 次 查询 的 荡 围 都 不 包括 上 次 已 经 查询 到 的 内 容 。 


4.3 ”以 获得 概要 数据 为 目标 的 制 表 


在 工作 中 经 弟 会 碰 到 很 多 明细 数据 ， 例 如 宫 销 的 明细 数据 、 质 量 的 明细 数据 、 财 务 的 明细 数据 等 ， 明 细 数 据 每 天 长 全 每 时 每 
刻 都 在 产生 ， 数 据 会 变 得 越 来 越 多 ， 每 天 去 看 ， 心 里 也 会 比较 厌倦 烦躁 。 因 此 ， 很 多 人 更 多 关心 的 是 汇总 数据 而 不 是 明细 数据 。 


我 在 企业 中 曾经 碰 到 这 样 的 领导 ， 他 虽然 要 求 下 属 人 在 向 他 提交 汇总 数据 表 的 时 候 ， 也 提交 明细 数据 表 ， 但 是 他 很 少 看 明细 数 
据 。 我 束 完 得 很 奇怪 ， 你 不 看 明细 数据 为 喻 还 要 下 属 提交 呢 ? 该 领导 说 “ 当 我 免得 汇 忌 数据 有 问题 的 时 候 ， 我 就 会 去 看 明细 数 
据 ， 一 般 情况 下 我 是 不 看 的 。" 


获得 汇总 数据 有 两 种 方法 : 一 是 采用 数据 中 的 “分 类 汇总 ”方法 ; 二 是 采用 数据 透视 表 的 方式 。 


4.3.1 分 类 ;[ 忆 万 法 


在 案例 文件 4.11 中 ， 如 果 采 用 分 类 汇 足 的 万 式 进行 汇 饼 ， 首 先 要 进行 排序 ， 例 如 要 按照 地 区 、 销 售 员 进 行 分 类 汇总 时 ， 融 要 
按照 地 区 、 销 售 员 进 行 排序 ， 步 又 如 下 。 


1) 进入 “排序 ”界面 ， 如 图 4-22 所 示 。 











图 4-22 


2) 按照 地 区 、 销 售 员 进行 排序 ， 如 图 4-23 所 示 。 





























图 4-23 


3) 排序 结束 后 ， 进 入 “分 类 汇总 ”界面 ， 如 图 4-24 所 示 。 








4) 第 一 次 做 分 类 汇 饼 ， 如 图 4-25 所 示 。 
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每 组 数据 分 页 ) 
加 汇总 结果 显示 在 数据 下 方 @) 




















图 4-25 


在“ 分 类 字段 ”中 选择 “地 区 ”，“ 汇 忌 方式 ”中 选择 “ 求 和 ”，“ 选 定 汇 忌 项 ”中 选择 “金额 ”作为 汇 忌 指标 ， 勾 选 “ 蔡 








图 “4-26 


图 形 左 上 角 是 分 级 待 ，1、2、3 表 示 目 前 分 为 3 级 ， 分 级 的 数字 越 小 ， 表 示 汇 总 概要 的 级 别 越 局 ， 分 级 的 数字 越 大 ， 表 示 赵 
是 明细 数据 。 


实现 第 一 次 分 类 汇总 的 同时 也 出 现 了 汇总 行 ， 如 图 4-27 所 示 。 


二 | 北京 


“ 攻 - 加 庆 | 跑步 机 时 | 汉 汪 00.00| 154.000.00. 





图 4-27 


5) 继续 做 第 二 次 分 类 汇总 ， 如 图 4-28 所 示 。 


分 类 字段 @) 











L511 4 ~ 


图 4-28 


由 于 是 按照 地 区 、 销 售 员 这 两 类 来 进行 排序 的 ， 现 在 做 第 二 次 分 类 汇总 时 ， 也 按照 “销售 员 ” 做 第 二 次 分 类 汇 饼 。 第 二 次 做 
分 类 汇总 时 ， 请 注意 不 要 勾 选 “从 换 当前 分 类 汇总 ”。 操 作 绪 束 后 ， 效 果 如 图 4-29 所 示 。 





可 以 友 现 分 级 又 多 了 一 级 ， 变 成 了 4 级 。 
这 样 ， 两 次 分 类 汇总 的 结果 都 完成 了 ， 如 何 拿 到 分 类 汇总 的 结果 呢 ? 


也 [ 司 = 


符号 “3”， 得 到 结果 如 图 4-30 所 示 。 


根据 我 们 的 制 表 经 验 ， 一 般 来 说 最 高 级 的 次 级 表 是 最 有 用 的 ， 现 在 的 分 级 最 高 级 是 4 次 ， 那 么 第 3 级 是 最 有 用 的 ， 点 击 分 级 


1,669,500.00 


EE | 1046,800.00 
路 小 雨 汇总 801.800.00 | 
Pa | | nis ii | 














TT 


6) 用 F5 热 键 拷 贝 汇 忆 结果。 


在 键盘 上 按 F5 键 ， 出 现 图 4-31 所 示 的 界面 。 




















引用 位 下 (R): 


! : 





























图 4-31 


所 击 图 4-31 中 的 “定位 条 件 ”， 得 到 图 4-32。 


在 图 4-32 中 ， 选 择 “ 可 见 单 元 格 ”， 这 里 的 意思 是 在 拷贝 数据 的 时 候 ， 只 考虑 可 以 看 得 到 的 数据 ， 看 不 到 的 明细 数据 残 不 
要 了 。 


用 CTRL+(C 键 进行 拷贝 ， 新 建 一 个 工作 表 ， 粘 贴 即 可 ， 如 图 4-33 所 示 。 





批注 马 ) 
常量 名 ) 
公式 鞍 ) 

IY| 数 字 0) 


FE J : 
品 逻辑 值 @ 


了 
空 值 苑 ) 
当前 区 域 是 ) 
当前 数组 扩 ) 
对 象 时) 








列 内 容 差 开 单 元 格 电 ) 
引用 单元 格 他) 
回 从 属 单元 格 血 ) 
直属 CI) 
,所 有 安神 (LL) 
© BE 一 个 单元 格 8) 


SR 
数据 有 效 性 ) 
全 部 全) 

加 相同 外) 


1.443,100.00 
7,231,650.00 | 
976,080.00 
2,698,230.00 
”3,674,310.00 
”1,666,100.00 





4.3.2 ”数据 透 钠 表 汇 总 


相对 于 “分 类 汇总 ”比较 多 的 步骤 ， 更 多 的 人 选择 用 数据 透视 表 进 行 汇 总 ， 具 体 步 又 如 下 。 


进入 数据 透视 表 ， 拖 蝶 相 同 的 字段 到 行 标签 和 数值 ， 如 图 4-34 所 示 。 


在 忆 下 区 域 旧 拖 动 字 息 
于” 报 卖 师 这 列 行 敬 





下 





图 4-34 
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我 们 看 到 ， 数 据 透 视 表 操 作 简 便 、 功 能 强大 ， 是 制 表 的 首选 的 工具 ，。 


1 28U00 
7231650 
] 2581600 
26b691140 
151o810 
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第 5 章 ”数据 分 析 的 基础 : 制 表 (下 ) 


本 章 继续 介绍 制 表 的 各 种 扩 巧 ， 以 期 让 读者 对 制 表 有 一 个 系统 全 面 的 擎 握 和 认识 。 


数据 透视 表 是 工作 中 的 常用 功能 ， 以 下 将 介绍 “七 个 百分比 ”， 通 过 这 “七 个 百分比 ”， 可 以 比较 全 面 地 把 握 常 用 的 表 型 。 


5.1 “七 个 百分比 ”让 你 册 得 大 部 分 表格 类 型 


“七 个 自分 比 ” 握 行 总 计 的 自分 比 、 询 总 计 的 自分 比 、 全 部 汇总 的 自分 比 、 父 行列 ) 的 百分比 、 昧 计 占 比 、 环 比 、 同 比 
等 ， 以 下 依次 看 这 “七 个 百分比 ”的 用 法 。 


5.1.1 行 尽 计 的 百分比 


这 节 以 案例 文件 5.1 为 例 来 说 明 如 何 实现 行 和 忌 计 的 百分比 。 首 先 ， 用 EXCEL 生 成 数据 透视 表 ， 将“ 客 尸 名 称 ” 拖 入 行 标 
签 ，“ 品 名 ” 拖 入 列 标签 ， 金 额 放 到 西格玛 数值 中 ， 得 到 图 5-1。 


求 和 项 :金额 ” 列 标 签 ~ 
~ DVD 光驱 ”打印 机 墨盒 。 内 存 条 显示 妖 硬盘 主板 总计 
1015 22440 1600 1330 2560 1700 30645 
11830 / 15998 4800 


6630 12240 17150 / 7080 
2340 
26400 10920 
61080 43840 





图 5-1 


从 图 ?-1 可 以 看 到 ， 我 们 未 必 能 够 很 快 得 到 相应 的 结果 ， 因 为 要 靠 肉 眼 去 辨识 数据 的 大 小 是 比较 困难 的 ， 这 还 仪 仅 是 一 个 小 
表 ， 如 果 表 格 比 较 大 的 话 ， 观 察 起 来 更 加 困难 ， 如 何 快速 地 得 到 分 析 结 果 呢 ? 


所 击 字 段 列 表 中 金额 石 边 的 黑 三 角 ， 如 图 5-2 所 示 。 











在 以 下 区 域 间 拖 动 字段 : 


半 报表 师 选 







































































”| 同 推迟 布局 更 新 
图 5-2 


然后 ， 扎 击 图 5-2 中 的 “ 值 字 段 设 置 ”， 进 入 图 5-3 所 示 的 界面 。 





图 5-3 


“ 值 显示 方式 ”中 ， 给 出 了 多 种 显示 值 的 方式 ， 数 据 透 视 表 的 很 多 功能 


b 是 通过 值 显示 方式 实现 的 。 
选择 “ 行 汇 忌 的 百分比 " 


， 也 就 是 说 透视 表 中 的 每 一 个 数字 都 是 行 尽 计 的 百分比 ， 如 图 5-4 所 示 。 


源 名 称 : 金额 
自 定 儿 名 种 (C): 





[ 什 下 总 方式 |】 值 显示 方式 
































局 击 “确定 1/ 得 到 图 5-5。 


额 ” 列 标签 ~ 

.DVD 光驱 ”打印 机 ”墨盒 
3.31% 73.23% 5.22% 4.3d% 0.00% 8.35% 5.55% 
0.00% 0.00% 31.11% 14.20% 42.07% 0.00% 12.62% 


Liai% wliadih: Oobp Hoh: LobeaN :UUUR: aUa1% 
0. O00% 0.00% 1l14.94% 48. 286% 0.00% 36. 78% 0. OO0% 
9.97% 39.5053% 16.39% 6.91% 24.14%» 7.91% 0O. O00% 
.48% 29.47% 21.15% 9.80% 18.91% 6.56%» 8.61%» 100.00% 





图 5-5 


从 图 5-5 可 以 看 到 ， 虽然 将 数据 转换 成 了 “ 行 尽 计 的 百分比 ”， 但 是 还 是 比较 难 快速 得 到 分 析 结 论 。 因 此 还 要 及 用 条 件 格 
式 ， 首 先 选中 图 5-5 的 数据 部 人 分， 点击“ 开始” 一“ 条件 格式 ”， 如 图 5-6 所 示 。 
































图 5-0 


接着 ， 选 择 简 明 的 色 阶 标识 法 ， 会 得 到 图 ?- 7 所 示 的 效果 。 


求 和 项 :金额 ” 列 标签 ~ 
行 标签 “2D 光路 EE _ 淮 盒 内 存 条 ”显示 如 ”硬盘 主板 总计 
| 5.22% .3 各 8. 35% 。 5. 55% 
31.11% 14.20% 42.07% 12. 62% 
11.81% 21.81% 30.5e% oy 12.62% 20. 21% 
14. 94% 48. 28% BONG 36. 78% 
5. 57% 39.53% 16.35% 6.51% 24.14% 7.91% 








图 5-7 ”( 附 彩 图 ) 


条 件 格式 的 色 阶 是 采用 “三 色色 阶 ”来 表示 数据 的 分 布 的 ， 例 如 绿色 代表 比较 大 的 数字 ， 红 色 代 表 小 数 子 ， 黄 色 代 表 局 中 间 


的 数字 。 根 据 颜 色 的 分 布 ， 我 们 可 以 快速 得 到 以 下 几 条 绪论 
1) A 公司 中 73.23% 的 销售 份额 是 通过 出 售 打 印 机 而 完成 。 
2) D 公 司 中 48.28% 的 销售 份额 是 通过 出 售 内 存 条 而 完成 。 
3) B 公 司 中 42.07% 的 销售 份额 是 通过 出 售 显示 器 而 完成 。 


显然 ， 通 过 “数据 透视 表 + 条 件 格式 ”， 分 析 数 据 的 效率 大 大 提高 


5.1.2 ” 列 总 计 的 自分 比 


同 2.1.1 节 ， 在 EXCEL 的 “ 值 字段 设置 ”里 点 开 “ 值 显示 方式 ”， 然 后 选择 “ 列 汇 忠 的 百分比 ”， 即 可 将 数据 透视 表 中 的 数 
据 转 换 成 原始 数据 在 对 应 的 列 总 计 中 的 自分 比 ， 如 图 5-8 所 示 。 


值 字段 设置 和 披 
意 溃 称 : 全 额 
自 定 义 名 称 CC): | 求 和 项 :金额 





% of Column Total 





| 数字 格式 @ -| 





以 下 步骤 同 5.1.1 节 ， 不 再 鳌 述 。 


5.1.3 ”全 部 忆 计 的 日 分 比 


同 5.1.1 节 ， 在 EXCEL 的 “ 值 字段 设置 ”里 点 开 “ 值 显示 方式 ”， 选 择 “ 全 部 汇 忆 的 百分比 ”， 即 可 将 数据 透视 表 中 的 数据 
转换 成 原始 数据 在 数据 透视 表 的 全 部 忆 计 中 的 百分比 ， 如 图 5-9 所 示 。 
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以 下 步骤 同 5.1.1 节 ， 不 再 歼 述 。 


5.1.4 父 行 ( 列 ) 的 上 自 分 比 


父 行 ( 列 ) 的 百分比 是 EXCEL 2010 版 本 之 后 的 功能 ， 它 实际 上 是 行列 ) 忆 计 百分比 的 进一步 深化 ， 如 图 5-10 所 示 。 


求 和 项 : 列 标签 ~ 
| ~ DYD 光 驱 “” 打印 机 墨盒 。 内 存 条 显示 器 硬盘 主板 总 计 
1015 22440 1600 1330 zo60 1l11700 30645 
1015 1600 1330 2560 1700 8205 
22440 22440 
11830 5400 4800 38028 
5400 21398 
4800 
11830 11830 
12240 17150 6 340 56120 
11340 
12240 17150 708( 36470 
| 8310 
日 D 公 司 2340 E 15660 
| 销售 4 2340 56 . 15660 
BE 公司 _|3720| 26400 10320 4350 16120 5280 6b66730 
] 销售 2 
销售 3 26400 10920 
销售 4 
销售 5 
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图 5-10 


通过 图 ?-10 可 以 看 到 ，E 公 司 在 DVD 光驱 领域 的 昧 计 销 量 是 3720， 分 布 在 销售 4 (3120) 和 销售 5 (600) 上 ， 如 果 需 要 知 
道 销 售 4 和 销售 5 的 销量 在 E 公 司 销 量 中 的 占 比 ， 玖 是 销售 4 和 0 销售 5 在 上 一 级 销量 中 的 占 比 ， 残 需要 使 用 父 行列) 的 百分比 ， 如 
图 5-11 所 示 。 





8. 93% 
100. 00% 
0. O0% 










58. 34% 
0. 00% 
0. 00% 
100. 00% 
0. 00% 



























































5.1.5 ” 款 计 占 比 


如 同 前 面 几 个 百分比 ， 用 数据 透视 表 去 求解 肾 计 占 比 很 简单 ， 不 过 首先 要 理解 囚 计 占 比 的 概念 和 合 义 。 


先 看 下 面 的 表 5-1。 


表 5-1 累计 占 比 数据 示例 


月 份 销 ” 量 累计 占 比 


从 表 5-1 可 以 看 出 ， 囚 计量 束 是 截止 到 到 | 期 时 间 的 销量 之 和 ， 例 如 截止 到 3 月 ， 肾 计 销 量 =1 月 销量 +2 月 销量 +3 月 销量 
=10+20+10=40。 可 以 非常 容易 地 看 出 ， 最 后 一 个 累积 量 实际 上 惑 是 各 期 的 销量 之 和 |。 


办 计 占 比 束 是 各 期 的 累积 量 与 筷 和 的 比值 ， 例 如 a 到 3 月 ， 夫 积 量 是 40， 累 计 占 比 束 是 40/50=80%。 
在 理解 了 囚 计 占 比 的 概 仿 之后， 再 来 看 看 囚 计 占 比 的 作用 ， 看 表 5-2 中 的 数据 。 


表 5-2 不 同 数量 级 的 数据 的 累计 占 比 


] 月 1000 32 167 70% 


Hl 


2 月 2000 52 880 72% 
3 月 1000 34 567 80% 


在 表 5-2 中 ， 销 量 、 用 户 数 、 达 成 比例 这 三 列 数 据 的 数量 级 的 差别 比较 大 ， 如 果 要 比较 它们 之 间 的 数据 变化 ， 会 比较 困难 。 
如 果 采 用 画图 的 方式 ， 会 友 现 只 有 用 户 数 能 看 得 比较 清楚 ， 销 量 和 达成 比例 在 图 上 几乎 看 不 见 。 


如 何 解决 这 个 问题 呢 ? 一 个 有 效 的 办 法 是 ， 对 数量 级 差别 比较 大 的 数据 进行 变形 ， 将 各 种 数据 都 压缩 到 同一 个 沱 围 之 内 ， 例 
如 0 和 1 之 间 ， 这 样 一 来 ， 这 些 数 据 残 可 以 相互 比较 了 。 


轮 计 占 比 束 是 有 效 的 数据 变形 的 方法 之 一 ! 


轮 计 占 比 的 具体 操作 如 下 (这 里 要 用 到 案例 文件 5.2 的 内 容 ) ， 选 择 相应 的 数据 生成 透视 表 ， 将 日 期 放 入 行 标 签 ， 品 名 放 入 
列 标签 ， 金额 放 进 西格玛 数值 ， 然 后 点 击 金 额 右边 的 黑 三 角 ， 进 入 “ 值 字段 设置 ”， 在 “ 值 显示 方式 ”中 选择 “ 按 某 一 字段 江 忆 
的 百分比 ”， 如 图 5-12 所 示 。 


| 值 : 段 误 证 
源 名 称 :全 额 


:| 值 显示 方式 





得 到 紧 计 占 比 数据 如 图 5-13 所 示 。 


求 和 项 :金额 站 ” 列 标 签 | > 


行 标签 ~ | 按摩 垫 跑步 机 
2007 .15% 站 ,了 
2007/2 = 1. 69% 
2007/3 1 3. D4% 2 9 
2DDT/ 18. D2% 号, 1 
200715 23. 83% 和 。 和牛 电台 
200726 30. OEY ,dd 名 
2007/T7 36. FD B. 99% 
200T7/ 8 4 引 .ON = 
2007/9 49. 99% 1D0,. 36% 
2007710 5. 89% 12, 28% 
2007;11 Bl1. 29% 11. 57% 
2007712 BB. 52% 1117. 3dd% 
200871 7].50% 119, 98% 
2008/ 2 T6. 20% 23,19% 
2008/3 BD0.16% 27, 52% 
2D08 /和 8B2.790% 32, 23% 
Mir 虽 my m 
图 5-13 


随后 做 一 个 替 计 占 比 图 ， 如 图 5-14 所 示 。 
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图 5-14 
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按 值 汇总 值 显示 方式 域 、 项 目 和 是 : 
7 集 透视 图 


现在 点 击 “ 数 据 透 视 表 ”， 选 择 折线 线 型 ， 可 得 到 如 图 5-15 所 示 的 图 形 。 


求 和 项 : 金额 圣 
120.00% 
100.00% 


80.00% 


护 名 到 


一 一 按摩 执 


60.00% 


40.00% - 
一 一 跑步 机 





图 5-15  ( 附 彩 图 ) 
从 昧 计 占 比 图 可 以 看 出 ， 所 有 的 品 项 都 是 在 [0，1] 这 个 区 间 里 面 ， 这 表明 累计 占 比 图 可 以 轻易 地 实现 多 个 品 项 之 间 的 比较 ， 
同时 累计 占 比 图 的 走势 也 颇 有 分 析 价 值 ， 例 如 图 5-15 中 的 按摩 执 就 表示 数据 的 增长 是 “前 快 后 慢 ”， 而 跑步 机 的 图 形 则 表示 数 


据 的 增长 是 “ 责 慢 后 快 ”。 


5.1.6 环比 


声 不 离 焦 ”的 兄弟 ， 环 比 指 的 是 本 期 的 数据 和 上 一 期 数据 的 变化 情况 ， 而 同比 则 是 指 本 期 数 


环比 和 同比 是 一 对 “ 焦 不 离 雷 、 
据 和 去 年 同期 的 比值 。 例 如 2015 年 5 月 的 销售 数量 是 100，2016 年 4 月 的 销售 数量 是 110，2016 年 5 月 的 销售 数量 是 128， 则 环比 


的 计算 公式 如 下 : 
2016 年 5 月 销售 数量 一 2016 年 4 月 销售 数量 
9016 大 由 壮 业 二 年 $5 月 销售 数量 eee 

2016 年 4 月 销售 数量 

同比 的 计算 公式 为 : 

2016 年 5 月 销售 数量 一 2015 年 5 月 销售 数量 
5016 大 半月 同比 二 年 5 月 销售 数量 A 者 售 数量 

2015 年 $5 月 销售 数量 


下 面 我 们 看 如 何在 数据 透视 表 中 求 环比 。 
这 里 使 用 案例 文件 5.2 中 的 内 容 生 成 数据 透视 表 ， 将 日 期 放 入 行 标签 ， 品 名 放 入 列 标签 ， 金 额 放 入 西格玛 数值 ， 随 后 点 击 字 
段 列表 中 金额 右边 的 黑 三 角 ， 扣 击 “ 值 字段 设置 ”， 在 “ 值 显示 方式 ”中 选择 “ 笑 异 百分比 ”， 如 图 5-16 所 示 。 


:原名 称 : 全 额 科 
自 定 守 省 称 亿 ;| 求 和 项: 金额 症 


值 汇总 方式 | 值 显示 方式 
值 星 示 万 式 闻 ] 





图 5-10 


然后 ， 在 “基本 字段 ”中 选择 “日 期 ”， 在 “基本 项 ”中 选择 “上 一 个 ”， 这 样 环比 束 生 成 了 ， 如 图 5-17 所 示 。 
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行 标签 
2007/1 
2007/2 
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2008/1 
2008/2 
2008/3 
2008/4 
200875 
2008/6 
2008/7 
2008/8 
2008/9 


2008/10 
2008/11 


同样 可 以 及 用 条 件 格 式 对 环比 数据 进行 表示 ， 不 再 次 述 。 
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ft.ldh C20.o1% 
日 . bi S50.55% 
OQ. OU% .33 
OQ. O00»% lo. S80% 

-11. 2o% b. brw 

-0.40% 18.7o% 

-33.05% 21. 00% 

一 上. 7b% 一生 家 

-9.7o% Zl1. 和 43% 

-10.02% -30.25% 
-34. ba .TOw 

-b.2o0% eb. OO% 

-Bb.br% 1l14. .239% 

-53.01% 11.11% 

-3. 170% 12.o0% 

-11. o4% 了 
li1. 53% 3. bow 

-3. TOW% f. 0 和 4% 

图 5-17 
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sl 同比 


在 做 同比 之 前 ， 观 察 案例 文件 2?.2 中 的 源 数据 ， 因 为 同比 数据 是 与 去 年 同期 的 数据 相 比 ， 人 在 源 数据 中 没有 “年 ”这 个 信息 ， 


所 以 需要 先 对 日 期 型 数据 进行 组 合 ， 以 获得 “年 ”的 信息 ， 如 图 5-18 所 示 。 


求 和 项 : 数量 | 列 剑 区 | 
全 标签 
2007/1 
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200776 
2007/7 
2007/8 
2007/9 
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2007/11 
2007/12 
2008/1 
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图 5-18 


然后 ， 选 择 任何 一 个 日 期 ， 点 击 鼠 标 石 键 ， 选 择 “创建 组 ”， 如 图 ?-19 所 示 。 


自动 
避 起 始 于 (8): | 20077171 
绎 | 于 (FE): |200871272 























图 5-19 


在 图 5-19 所 示 的 步 长 中 ， 选 择 “ 年 ”， 得 到 年 份 的 信息 ， 数 据 透 视 表 自动 生成 一 个 新 的 行 标签 ， 如 图 5-20 所 示 。 
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图 5-20 


以 下 步骤 跟 环 比 的 做 法 基本 相同 ， 只 是 在 字段 中 不 再 选择 日 期 ， 而 是 选择 


“年 ”， 如 图 5-21 所 示 。 
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图 5-21 


5.2 分 组 功能 经 弟 让 分 析 峰 回路 转 


分 组 功能 是 数据 透视 表 制 表 的 重要 功能 ， 不 但 可 以 使 表格 美观 ， 而 且 能 对 数据 进行 分 析 。EXCEL 中 的 数据 格式 有 文本 、 数 
字 、 日 期 等 ， 以 下 分 别 介绍 这 几 种 格式 的 分 组 。 


5.2.1 文本 的 分 组 


这 里 要 用 到 案例 文件 5.3， 同 样 先 使 用 相应 的 数据 形成 数据 透视 表 ， 如 图 5-22 所 示 。 
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图 5-22 


如 果 希 望 把 大 众 系 列 的 车 都 放 到 一 个 组 中 ， 及 用 文本 分 组 功能 。 首 先 选择 大 众 系列 车 ， 点 击 髓 标 右键 ， 选择“ 创建 组 ”， 如 
图 5-23 所 示 。 


秘 制 (CC) 
轩 设置 单元 格格 式 (日 .… 
刷新 (R) 
排 夺 (Ss) 
师 迹 中 
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创建 组 后 的 效果 如 图 ?-24 所 示 。 
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图 5-24 


在 图 5-24 中 ， 有 两 个 级 别 的 行 标 答 都 位 于 A 列 之 内 ， 需 要 调整 。 可 在 “数据 透视 表 工 具 ” 的 “设计 ”中 进行 修改 ， 如 图 5-25 
所 示 。 

5.3 分 组 文本 .xlsx - Microsoft Exce| 
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图 5-25 
在 报表 布局 中 ， 有 “压缩 ”、“ 大 纲 ”、 “表格 ”等 数 种 显示 方式 ， 在 多 标签 的 情况 下 ， 选 择 “ 表 格 ”万 式 ， 得 到 的 效果 如 


图 5-26 所 示 。 
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图 5-20 


一 般 制 表 后 ， 还 需要 对 新 的 分 组 求 汇总 ， 操 作 如 图 5-27 所 示 。 


[~| 车 型 | 求 和 项 :2 月 销量 
太 众 宝来 15394 
六 众 高 涉 夫 11582 
太 众 捷达 18640 
六 众 闭 他 36063 
大众 迈腾 13641 
大 你 则 萨 特 18387 
六 众 避 塔 纳 26477 
太 众 速腾 19673 
太 众 新 polo 15280 
别 兄 遍 坡 18247 
址 特 福 郊 斯 两 厢 11359 
址 特 人 福 守 斯 16827 
言 利 帝 录 EC7 14789 
起 LK2 10724 
to:LRK3 12963 
口 产 轩 侈 12430 
现代 并 动 20457 
现代 瑞 纳 二 朋 15809 
雪 恒 三 科 鲁 兹 18520 
雪佛兰 赛欧 二 采 17171 
长 安 创 动 15051 
岗 ] 由 BL 10555 
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和 在世 下 区 域 间 扰动 于 眉 
定 ”报表 师 访 
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| 站 | 推 水 布局 更 凌 


图 5-27 


所 击 新 生成 的 标签 右边 的 黑 三 角 ， 进 入 字段 设置 界面 ， 如 图 5-28 所 示 。 
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图 5-28 


然后 将 分 类 汇总 设置 为 “ 目 动 ”， 融 得 到 新 字段 的 汇总 数据 了 ， 如 图 ?-29 所 示 。 


5.2.2 ”等 步 长 的 数据 分 组 


在 数据 的 分 组 中 ， 等 步 长 的 分 组 和 不 等 步 长 的 分 组 都 比较 剃 见 ， 下 面 先 来 看 等 步 长 的 分 组 ， 这 里 用 到 的 数据 来 目 案例 文件 
5.4。 首 先 ， 生 成 数据 透视 表 ， 把 “销售 人 数 ” 放 入 行 标 签 ，“ 销 售 数量 ” 放 入 西格玛 数值 ， 得 到 如 图 ?5-30 所 示 的 表格 。 
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图 5-29 


184341 





so 505[ 


然后 选中 “销售 人 数 ” 中 的 任何 一 个 单元 格 ， 避 击 鼠标 右键 ， 选 择 “创建 组 ”， 如 图 ?-31 所 示 。 


这 时 出 现 如 图 5-32 所 示 的 界面 。 
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图 5-31 
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图 5-32 


实际 数据 是 从 3 开始 到 57 截 止 的 ， 这 里 有 个 小 技 15， 及 用 “0-9” 或 者 “1-0” 原 则 ， 也 束 是 说 ,一 个 分 组 或 者 是 从 0 到 9， 或 
者 从 是 1 开始 到 0 (例如 11 到 20) ,这 里 及 用 “0-9” 原 则 ， 将 起 始 数 字 3 改 为 0，57 改 为 59， 由 于 现在 的 数据 比较 少 ， 可 将 步 长 
从 默认 的 10 改 为 20， 并 将 销售 数量 从 合计 改 为 平均 值 ， 操 作 之 后 可 得 到 如 图 5-33 所 示 的 效果 。 





图 5-33 


从 分 组 结果 可 以 看 到 ， 随 着 销售 人 数 的 增多 ， 平 均 销 售 业绩 不 断 上 升 ， 这 说 明 大 的 分 公司 业绩 要 好 于 小 的 分 公司 。 


5.2.3 “不 等 步 长 的 数据 分 组 
相对 于 等 步 长 的 数据 分 组 ， 不 等 步 长 的 分 组 要 复杂 一 些 ， 同 时 分 组 的 自由 度 也 要 大 一 些 ， 可 以 按照 自己 的 需求 对 数据 进行 任 
何 分 组 。 这 里 的 数据 源 自 案例 文件 5.5， 首 先 ， 同 样 是 生成 数据 透视 表 ， 将 姓名 放 入 行 标签 ， 应 税收 入 净 额 放 入 西格玛 数值 . 


然后 ， 按 照应 税收 入 兆 额 进行 排序 ， 数 据 透 视 表 中 的 排序 与 普通 的 排序 有 所 不 同 ， 扣 击 透视 表 中 行 标签 右边 的 黑 三 角 ， 如 图 
5-34 所 示 。 
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图 5-34 


在 选择 图 5-34 中 的 其 他 排序 选项 后 ， 会 出 现 图 5-35 所 示 的 界面 。 
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图 5-35 


在 图 5-35 所 示 的 界面 ， 选 择 降 序 排序 ， 在 下 拉 框 中 选择 “ 求 和 项 : 应 税收 入 净 额 ”， 融 可 以 得 到 图 ?5-36 的 内 容 。 
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图 5-30 
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现在 已 经 将 名 字 按 照应 税收 入 净 额 进行 了 降序 排序 ， 接 着 进行 分 组 ， 分 组 的 规则 如 下 : 5000 元 以 上 的 分 为 一 组 、2000 ~ 


5000 元 的 一 组 、2000 元 以 下 的 一 组 、0 元 的 一 组 ， 排 序 的 方法 如 图 5-37 所 示 。 











图 5-37 


选择 净 额 在 5000 元 以 上 的 人 员 ， 扣 击 鼠标 右键 选择“ 创建 组 ”， 在 设计 中 将 透视 表 改 为 表格 方式 ， 得 到 图 5-38。 
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图 5-38 


在 做 过 一 次 分 组 乙 后 ， 原 来 排列 有 序 的 应 税收 入 将 额 现在 又 变 成 乱 序 了 ， 变 成 乱 序 的 原因 是 分 组 后 生成 了 新 的 行 标 签 “ 姓 名 


2”， 因 此 需要 做 二 次 排序 ， 点 击 “ 姓 名 2” 右 边 的 黑 三 角 ， 将 “姓名 2” 按 照应 税收 入 净 额 进行 排序 ， 如 图 5-39 所 示 。 
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图 5-39 


在 图 5-39 的 基础 上 ， 可 再 继续 手工 进行 分 组 ， 以 下 不 再 鳌 述 。 


5.2.4 日 期 型 的 分 组 


日 期 型 的 分 组 有 点 类 似 于 日 期 型 数据 的 汇 吕 ， 殊 是 可 以 从 “日 ”的 日 期 中 快速 提取 出 月 、 季 度 、 年 等 信息 ， 源 数据 见 案 例文 
件 5.6， 将 日 期 放 入 行 标 签 ， 销售 量 放 入 西格玛 数值 。 然 后 ， 如 同 之 前 的 分 组 操作 ， 将 光标 放 在 任何 一 个 日 期 上 点 击 女 标 右键 ， 
选择 “创建 组 ”， 如 图 5-40 所 示 。 
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图 5-40 


所 击 季度 或 年 ， 束 可 以 得 到 新 的 行 标签 ， 以 下 操作 比较 简单 ， 不 再 玖 述 。 


5.3 ”随意 生成 各 种 派生 措 标 


数据 透视 表 中 可 以 灵活 地 添加 字段 和 项 ， 也 束 可 以 灵活 地 生成 各 种 派生 指标 ， 这 里 先 介 绍 字段 和 项 的 概念 : 字段 很 容易 理 


解 ， 融 是 数据 透视 表 中 数据 的 表 头 ， 通 俗 地 讲 ， 字 段 融 是 数据 询 的 表 头 。 项 是 一 个 字段 中 不 重复 的 值 的 集合 。 这 里 以 案例 文件 
5.7 中 的 数据 来 进行 说 明 。 首 先 ， 仍 是 生成 数据 透视 表 ， 将 客 尸 名称 放 入 行 标签 ， 得 到 如 图 5-41 所 示 的 内 容 。 







































































图 5-41 


看 案例 文件 5.7 中 的 源 数 据 ， 可 以 发 现 客户 名 称 中 有 效 数据 为 27 个 ， 而 其 中 的 项 ， 也 就 是 不 重复 的 值 只 有 5 个 。 因 此 ， 有 很 
多 熟练 使 用 数据 透视 表 的 人 ， 就 使 用 数据 透视 表 的 功能 来 获取 数据 中 不 重复 的 值 ， 只 要 将 数据 拖 入 到 行 标签 或 者 列 标签 即 可 。 


以 下 看 看 如 何 添加 字段 和 添加 项 。 


5.3.1 ”添加 字段 


把 客户 名 称 放 入 行 标签， 数量 放 入 西格玛 数值 ， 得 到 图 ?-42。 








图 5-42 


现在 加 上 一 个 字段 ， 例 如 观察 每 天 的 销售 量 ， 即 数量 /365， 操 作 如 下 ， 先 在 “选项 ”中 选择 “ 域 、 项 目 和 集 ”， 如 图 5-43 
所 示 。 


5 志 歼 








t(D) 


基于 行 项 创建 集 [R).. 
基于 列 项 创建 集 (C), 
车 霸 集 (Ml)... 


图 5-44 





在 弹出 的 界面 上 ， 填 入 字段 名 称 和 公式 ， 点 击 “ 添 加 ”， 如 图 5-45 所 示 。 












































图 5-45 


这 样 束 得 到 了 新 的 字段 ， 如 图 5-46 所 示 。 


行 标 签 ~* 求 和 项 :数量 求 和 项 :每 天 的 销售 量 
外 公司 | od 0. 147945205 
B 公 司 | 63 0. 17260274 


CA 公司 | 116 0. 317808219 
DD 公司 | 38 0. 104109589 
E 人 公司 | 91 0. 249315068 
总 计 362 0. 991780822 


图 5-40 





5.3.2 ”添加 项 


添加 字段 是 添加 一 个 独立 的 数据 列 ， 添 加 项 则 是 在 一 个 字段 中 添加 一 个 新 的 分 项 。 源 数据 同样 见 案例 文件 2.7， 将 客户 名 称 
放 入 行 标签 ， 将 品名 放 入 列 标签 ， 如 图 5-47 所 示 。 
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业 量 “” 列 蒜 要 | 
|DYD 光 驱 “” 打印机 内 存 条 ”显示 器 硬盘 主板 墨盒 总 计 
i Ee i 9 0 9 
10 2 2 有 











后 | 二 ly J a 局 

14 1 
2 2 15 | 1 
bl 口才 ls 十 br 

















图 5-47 


对 于 列 标签 来 品名 来 说 ，DVD 光 驱 、 打 印 机 等 都 是 项 ， 现 在 如 果 我 们 要 得 到 一 个 新 的 项 ， 例 如 内 存 条 和 硬盘 的 数量 的 和 |， 
那么 ， 操 作 则 为 如 下 步骤 。 


1) 将 光标 放置 在 任何 一 个 项 所 在 的 位 置 ， 点 击 “ 域 、 项 目 和 集 ”， 如 图 5-48 所 示 。 


本 打印 机 : 
区 mm wm 天天 1 现 贡 讲评 于 芋 须 和 要 5 要 本 


求解 次 序 (S).。 
列 出 公式 (LD) 
计算 项 现在 | 基于 行 项 创建 集 [R) 


旨 和 项 :每 天 的 销售 本 可 以 各 击 于 |。 基于 列 项 | 建 集 (CO 。 





图 5-48 


这 里 需要 注意 的 是 ， 如 果 光 标 没 有 放 在 项 的 位 置 上 ，“ 计 算 项 ”是 不 能 点 击 的 。 由 于 篇 幅 的 关系 ， 这 里 不 再 贴图 ， 请 大 家 目 
行 验证 。 


2) 输入 新 的 项 的 名 字 ， 输 入 公式 ， 如 图 5-49 所 示 。 
在 “品名 ”中 揪 入 计算 字段 
名 称 乌 ) : | 新 项 





图 5-49 


3) 点 击 确 定 后 ， 得 到 图 5-50。 
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图 5-50 


有 一 后 需 要 注意 ， 在 添加 了 新 的 项 之 后 ， 最 右边 的 “ 忌 计 ”项 会 友 生变 动 ， 也 丈 是 说 不 准确 了 ， 通 剃 会 高 于 正常 的 数值 。 


5.4 ”从 大 数据 库 中 挑选 要 分 析 的 数据 : Microsoft Query 


目前 企业 的 数据 量 越 来 越 大 ， 在 做 透视 表 的 时 候 ， 如 果 面 临 的 是 大 数据 量 ， 往 往 并 不 需要 把 全 部 数据 读 到 透视 表 中 ， 而 只 需 
按照 目 己 的 需要 选择 读 入 的 数据 即 可 。 这 个 时 候 ， 数 据 透 视 表 目 带 的 “Microsoft Query” 功 能 就 可 以 有 效 地 解决 这 个 问题 。 


这 里 以 案例 文件 ?5.8 为 数据 源 ， 打 开 一 个 空白 EXCEL 文 件 ， 在 “数据 ”中 的 “ 目 其 他 来 源 ” 选 择 “来 自 Microsoft 
Query”， 如 图 5-51 所 示 。 


然后 选择 “Excel Files*” ， 如 图 5-52 所 示 。 


在 选择 相应 的 文件 路 径 和 文件 后 ， 点 击 确定 ， 不 过 经 常会 在 目标 文件 中 找 不 到 工作 表 ， 如 图 5-53 所 示 。 





来 自 SQL Server 
创建 到 pd pews 去 的 连接 。 将 逆 寺 















下 Microsoft Query 
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图 5-51 














数据 库 | 查 词 “| 0LAP 多 维 数据 集 | 
< 产 效 据 蛛 > 

dBASE Filles* 

Excel Files* 

MS Access Database* 





中 除 o) | 
使 用 “查询 向 导 ” 创 建 /编辑 查询 ) 





图 5-52 


Microsoft Query 





数据 次 中 没有 包含 可 见 的 表格 - 


确定 | 








图 5-53 


页 到 这 种 情况 不 用 担心 ， 在 “查询 向 导 ” 中 选择 “选项 ”， 如 图 5-54 所 示 。 


| 请 选择 查询 结果 所 需 包 含 的 数据 列 | 
可 用 的 表 和 列 (A) 结果 中 的 列 C); 


vv 目 | 


定 列 中 的 数据 : 


| 《上 一 步 @)| 下 一 步 m ?| | 取消 | 


图 5-54 





色 选 选项 中 的 所 有 选项 ， 如 图 5-55 所 示 。 


lv 系统 表 G) 


lw 同 多 启 总 ) 
fw 按 字母 虱 序 列 出 表 和 列 民 ) 
































图 5-55 


然后 选中 放置 数据 的 工作 表 ， 点 击 向 右 的 箭头 (类 似 大 于 号 的 那个 ) ， 如 图 5-56 所 示 。 





请 选择 查询 结果 所 需 包 含 的 数据 列 : 
可 用 的 表 和 列 (A) 


| 团 Sheetl$ 
FF Sheet3 





预 党 选 定 列 中 的 娄 据 : 


加， 巴 蜗 PF) | | 选 责 o.…. 








图 5-50 


在 “查询 结果 中 的 列 ” 下 面 ， 残 是 工作 表 中 的 字段 名 称 ， 可 以 逐一 选择 查询 条 件 ， 如 图 5-57 所 示 。 








请 入 选 数 据 以 指定 查询 结 # 果 所 包含 的 生 

如 果 无 需 师 选 数 据 ， 请 单 击 “ 下 一 步 ”。 

待 秘 选 的 列 (C): 只 包含 少 足 下 列 条 件 的 行 
二 产 闻 








< 上 一 步 @B) | 下 一 步 吕 》 





图 5-57 


例如 ， 要 查询 合同 签署 时 间 在 2012-7-1 之 后 并 且 金 额 大 于 15000 的 记录 ， 和 筛选 条 件 如 图 5-58 和 图 5-59 所 示 。 


小 








请 师 选 数据 以 指定 查 词 结果 所 包 合 的 行 。 

如 果 无 需 贤 选 数 据 ， 请 单 击 “ 下 一 步 ”。 

待 师 选 的 列 (C): 口 忆 含 满 中 下 到 条 人 忻 的 行 : 
= 合同 等 着 时 日 


[大 于 或 等 于 -| [2012-7-1 








《< 上 一 步 @B) | 下 一 步 00) > 





图 5-58 


查询 向 导 - 第 选 数 据 


请 师 选 数据 以 指定 音调 结果 所 包含 的 

如 果 无 需 饰 选 数据 ， 请 单 击 “ 下 一 步 ”。 

待 师 蕊 的 列 CC): 只 足下 列 条 件 的 行 : 
三 亚 证 


< 上 一 步 (8B) | 下 一 步 辐 ) > 


图 5-59 


得 到 以 下 饰 选 结 果 ， 如 图 ?-60 所 示 。 


最 终 得 到 的 结果 如 图 ?-61 所 示 。 


在 图 -61 中 选择 “数据 透视 表 ” ， 数 据 透 视 表 位 置 为 A1， 得 到 数据 透视 表 ， 为 了 检验 得 到 的 结果 ， 将 订单 编号 放 入 行 标 


， 合 同 签署 时 间 放 入 列 标签 ， 金额 放 入 西格玛 数值 ， 得 到 图 5-62。 


查询 向 导 - 完成 


请 确定 下 一 步 的 动作 
fw 将 娄 据 陈 回 icrosoft Excel (R) 保存 查 凋 (3)... 
个 往 及 crosoft Query 中 查看 数据 或 绵 辑 查 伺 0) 











图 5-00 


数据 的 放置 位 2 ep py 
© 现 有 工作 夫 E): 





求 和 项 :金额 ” 列 标签 ~ 
行 标 签 7 2012/7/2 2012/7/6 2012/7/9 2012/7/13 21 
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30 
41 





el 15364 
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oo 20679 


图 5-02 


这 样 就 得 到 了 合同 签署 时 间 在 2012-7-1 之 后 并 且 人 金额 大 于 等 于 15000 的 数据 。 


5.5 ”强大 的 SQL 


SQL 是 一 种 数据 查询 万 法 ， 它 是 一 种 结构 化 的 数据 库 查 询 语 言 。 对 于 做 数据 分 析 的 人 来 说 ， 操 作 SQL 几 乎 是 一 种 必 备 的 技 
能 ， 它 能 够 帮助 我 们 从 大 数据 库 中 找到 目 己 想 要 的 数据。 


SQL 之 所 以 重要 ， 是 因为 在 大 量 的 数据 中 ， 我 们 经 音 需 要 按照 一 定 的 条 件 去 疆 选 数据 ， 甚 全 需要 人 在 EXCEL 工 作 短 文件 航 打 开 
的 时 候 融 刷新 要 对 选 的 数据 (做 数据 的 人 经 常 称 之 为 “ 刷 ” 数 据 ) 。 没 有 SQL， 疆 选 数 据 的 工作 会 变 得 很 艰难 。 


5.5.1 SQL 的 基本 语 ; 


要 真正 把 SQL 讲 清楚 ， 估 计 可 以 单独 写 一 本 书 了 ， 这 里 只 是 简单 地 介绍 一 些 常用 的 SQL 语 句 。 先 来 看 下 面 的 语句 : 
select * from [上 海 $] where 销售 量 >20 order by 销售 量 

以 上 这 人 句 话 的 意思 是 从 名 称 为 “上 海 ” 的 工作 表 中 找 出 销售 量 大 于 20 的 全 部 记录 ， 并 且 按 照 销 售 量 进行 排序 。 
再 看 一 个 例子 : 


select ' 北 京 ' as 城市 ,* from [北京 $] union all 
select ' 上 海 ' as 城市 ,* from [上 海 $] union all 
select ' 天 津 ' as 城市 ,* from [天 津 5] 


这 个 例子 表明 : 有 三 个 工作 表 ， 数 据 分 别 源 于 北京 、 上 海 、 天 津 ， 然 后 殊 是 从 北京 工作 表 中 找到 城市 这 个 字段 是 “ 北 
束 ” 的 ， 从 上 海 这 个 工作 表 中 找 出 城市 字段 是 “上 海 ” 的 ， 从 天 津 工 作 表 中 找 出 城市 字段 是 “天 津 ” 的 ， 并 把 这 尝 记录 合并 起 来 
输出 。 


SQL 的 语法 句 式 很 多 ， 对 SQL 的 了 解 和 熟练 掌握 不 是 一 距 而 残 的 事情 ， 需 要 长 时 间 的 使 用 和 经 验 的 积累 。 


5.5.2 SQL 的 应 用 


SQL 的 应 用 非常 广泛 ， 在 多 种 平台 和 环境 中 都 能 使 用 ， 以 下 介绍 SQL 在 EXCEL 环 境 中 的 应 用 。 


数据 文件 源 目 案例 文件 ?.9。 打 开 一 个 EXCEL 文 件 ， 如 图 5-63 所 示 。 





图 5-03 


在 “数据 ”中 选择 “ 现 有 连接 ”， 得 到 图 ?-64。 


现 有 连接 i 和 
显示 (8) ， [所 有 注 接 四 
选择 连接 CC): 


此 工作 海中 各 主 接 
“未 找到 任何 连接 > 
岗 族 的 连接 文件 
“未 找到 任何 连接 > 
此 证 契 机 的 本 接 文 忻 
1 SQL datal 
2=2 [空白 ] 
1 SQL 上 海 $ 
[空白 ] 
1 SQL 上 海 $ (1) 
[空白 ] 


“1 数据 透视 表 源 数据 
[空白 


“2 销售 汇总 销售 记录 
前 [空白 ] 
三 4 量 本 利 指标 的 多 维度 统计 分 析 “2009 年 $ 


[空白 ] 


4 量 本 利 指标 的 条 维度 统计 分 析 “2009 年 $* 1) 
[空白 ] 


4 量 本 利 指标 的 多 维度 统计 分 析 同比 分 析 $ 


[ 空 日 ] 











图 5-04 


所 击 图 5-64 中 的 “浏览 更 多 ”， 然 后 选择 文件 的 路 径 和 文件 名 ， 得 到 图 5-65。 


(9| 3 | 


名 称 说 明 修改 时 间 Bl 建 时 间 
转 datal 8/26/2010 5:46:15 PN 8/26/2010 
国 data2 8/26/2010 5:48: 8/26/2010 
国 data3 3/26/2010 5:48:15 FH 8/26/2010 
到 上 海中 8/26/2010 5:48:15 P 8/26/2010 
国 北京 $ 8y726/2010 5:48:15 PFN 8/26/2010 
国 天 津 $ 8/26/2010 5:48:15 PH 8/26/2010 5: 
到 数据 透视 表 $ 8/26/2010 5:48: 8/26/2010 





数据 首 行 包含 列 标题 时) 





图 5-05 


扎 击 图 5-65 中 的 “确定 ”后 ， 点 击 “ 属 性 ”， 如 图 5-66 所 示 。 


请 运 择 谅 数 据 任 工 作 清 中 的 显 志 万 


局 ) 5 孝 据 透视 志 正 ) 
nm 全 数据 透视 图 和 煞 据 透视 表 已 ) 
询 六 避 创建 种 接 避 ) 
A 所 日 J 十 人 十 
古 ) 现 有 工作 卖 名 ) 
sl | 晤 | 
全 新 工作 去 年] 


之 后 会 得 到 5 一 67。 








连接 尾 性 
连接 名 称 0) 一 一 
| 黄 明 区) : 


鞋 接 类 型 : Excel 六 件 
连接 文件 吧 ) 区 :Vitrv 机 械 工业 出 版 社 \ 案 例 \ 第 5 章 ] (浏览 @) 
| | 妈 终 使 用 连接 文件 A) 


详 接 字 付 串 (8): he ALE. OLEDNB. 12.0: 0 
ID=Admin:Data Source= 了 : its 机 械 


ES 计 9 S9L 原始 


.xlsx:NMNode=Share 了 ery Write;Exterded 


加 保存 密码 也 ) 














,本 from [ 上京 $] union all | 
, 玉 from [ i Url on all | 


Fxcel] Servlices: 


生 辑 查 词 下 ). .. 








图 5-07 


在 图 5-67 中 ， 选 择 “ 定 义 ”标签 ， 在 命令 文本 中 ， 输 入 SQL 命 令 。 一 个 使 用 的 经 验 是 ， 如 果 一 开始 对 SQL 命 令 不 底 ， 可 以 在 
WORDx 文 件 中 将 SQL 命 令 准 备 好 ， 然 后 拷贝 到 命令 文本 中 。 


第 6 章 ” 数 据 扫 摘 : 给 数据 做 体检 


第 4 草 和 第 5 章 伦 了 相当 的 篇 幅 介 绍 了 如 何 制 表 ， 从 这 一 章 开始 ， 将 开局 “数据 分 析 ” 的 真正 序幕 。 


下 面 来 用 EXCEL、SPSS、Modeler 三 种 软件 看 看 如 何 给 数据 做 体检 。 


6.1 在 EXCEL 中 给 数据 做 扫 折 


在 讲述 EXCEL 如 何 做 数据 扫 摘 之 前 ， 首 先 介绍 一 下 EXCEL 中 的 两 个 数据 插件 ， 一 个 叫 “数据 分 析 ”， 一 个 叫 “规划 求解 ”。 
有 很 多 人 用 EXCEL 多 年 了 ， 虽 然 操作 水 平 不 错 ， 但 是 却 不 知道 EXCEL 中 有 这 两 个 插件 。 


这 两 个 插件 的 安 委 步骤 如 下 。 


1) 点 击 文件 ， 进 入 EXCEL “选项 ”， 如 图 6-1 所 示 。 











图 6-1 


2) 在 EXCEL 选 项 界面 ， 选 择 “ 加 载 项 ”， 然 后 后 击 “ 转 到 ”， 如 图 6-2 所 示 。 
3) 在 加 载 实 界面 ， 勾 选 “分 析 工 具 库 ”和 “规划 求解 加 载 项 ”， 点 击 “ 确 定 ”， 如 图 6-3 所 示 。 


这 样 ， 这 两 个 插件 束 安 竣 好 了 ， 在 “数据 ” 菜 早 中 ， 可 以 看 到 如 图 6-4 所 示 的 内 容 。 


















常规 :二 ， 查看 和 管理 Microsoft Office 加 载 项 
公式 

保 行 名 称 。 

语言 ” “| 活动 应 用 程序 加 载 项 

高 级 分 析 工 具 库 

自 定义 功能 区 

快速 访问 工具 栏 ”| | ”| 非 活动 应 用 程 
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分 析 工 具 库 
提供 用 于 统计 和 工程 分 析 的 数据 分 析 工 县 


| 审阅 视图 。 加 载 项 


图 | 证 二 ae Be 国 权 涩 让 调 撤 





z | 排序 | 往 和 全 二 新 应 用 | 和 列 ”删除 ”数据 “合并 计算 模拟 分 析 | 创建 组 取消 组 合 分 类 [总 
和 歼 高 级 重复 项 有 效 性 > -pi 
排序 和 算 先 





现在 融 坛 看 用 “数据 分 析 ” 揪 件 中 的 “ 摘 述 统计 ”来 观察 一 下 数据 的 特征 ， 如 图 6-5 所 示 。 
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模拟 分 析 Es rr 分 去 汇总 


















































图 06-5 


氮 击 “ 数 据 分 析 ”， 在 弹出 的 界面 中 选择 “ 摘 述 统计 ”， 如 图 6-6 所 示 。 


辆 六 
输入 区 域 代 ): $A$1 :A902 


分 组 方式 : 





加 输出 区 域 0): 


同 新 工作 表 组 巴 ) : 
辐 新 工作 溥 也 ) 
局 本 S) 










































































图 0-0 


在 图 6-6 中 ， 在 “输入 区 域 ” 里 选择 要 分 析 的 数据 区 域 ， 在 分 组 方式 中 ， 如 果 是 列 数据 ， 殊 选择 “ 逐 列 ”， 如 果 是 行 数据 ， 
则 选择 “ 逐 行 ”， 如 果 选 择 的 数据 包括 表 头 ， 则 勾 选 “标志 位 于 第 一 行 ”， 如 果 不 包 含 表 头 ， 则 不 需要 勾 选 。 


在 输出 选项 中 ， 输 出 区 域 束 是 在 本 工作 表 中 选择 一 个 位 置 输出 ， 新 工作 表 组 表示 将 输出 结果 放 到 一 个 新 工作 表 中 ， 新 工作 簿 
则 是 将 输出 结果 放 到 一 个 新 的 工作 簿 (EXCEL 文 件 ) 中 。 


勾 选 “ 汇 忆 统计 ”代表 希望 获得 一 个 汇 轧 的 统计 。 


所 击 “确定 ”后 ， 得 到 如 图 6-7 所 示 的 结果 。 
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以 上 的 结果 ， 不 再 一 一 解释 了 ， 基 本 上 除了 异常 值 之 外 ， 其 他 常用 的 统计 指标 都 有 了 ， 用 这 些 措 标 ， 束 可 以 比较 快速 地 获得 
数据 的 基本 情况 。 


6.2 SPSS 中 给 数据 做 扫 接 


[xf 
曙 


从 这 里 开始 ， 就 要 接触 专业 的 分 析 工 具 了 ， 专 业 工具 包括 SPSS 和 Modeler， 下 面 来 看 看 SPSS 中 如 何 给 数据 做 扫描 的 ， 
要 用 到 案例 文件 6.1 中 的 源 数据 。 


首先 ， 用 SPSS 读 入 EXCEL 中 的 数据 ， 如 图 6-8 所 示 。 


文件 (F) ”编辑 {E) ”视图 (V) ”数据 ({D) 转换 人 [T) ”分析 (A) 
困 建 (N) 


打开 (O) “| 已 语法 (S) 


打开 数据 库 (B) 


及 输出 (O) 
国 打开 文本 数据 (D).. 


| 外 脚本 





找到 案例 文件 6.1 所 在 的 文件 路 径 ， 将 其 打开 ， 如 图 6-9 所 示 。 


f= 打开 Excel 数据 涯 











字符 审 列 的 最 大 宽度 





























确定 数据 放 在 sheet1 中 后 ， 点 击 “ 确 定 ”， 将 数据 读 入 SPSS。 在 SPSS 的 分 析 菜 单 下 ， 选 择 “ 摘 述 统计 ”中 的 “ 接 述 ”， 如 
图 6-10 所 示 。 


分 析 仙 直销 (M) ”图 形 (G) ”实用 程序 (U) 


[局 首 壕 





图 。 6-10 


得 到 如 图 6-11 所 示 的 界面 。 

















图 06-11 


氮 击 图 6-11 界 面 的 “选项 ”， 将 弹出 图 6-12 所 示 的 界面 ， 在 这 里 可 以 选择 一 些 弟 用 的 摘 述 统计 指标 。 


























图 0-12 


所 击 “ 继 续 ”， 殊 可 以 得 到 相关 输出 结果 ， 如 图 6-13 所 示 。 


描述 统计 量 


| TEAET ET 三 T 了 | 


销量 901 1993 1007 3000 | 2018.26 19.317 | 579.839 | 336213.844 -.025 .081 -1.175 .163 
有 效 的 N (列表 状态 ) 901 


图 06-13 





相关 的 统计 指标 ， 在 2.1.1 书 和 2.1.2 节 中 已 经 有 相关 解释 ， 在 此 不 骨 蒙 述 。 


6.3 ”在 Modeler 中 给 数据 做 扫描 


Modeler 软 件 可 以 提供 更 为 专业 的 数据 搞 述 统计 ， 打 开 Modeler 14.1 版 本 的 软件 ， 在 “ 源 ” 中 选择 一 个 EXCEL 忆 点， 放 到 


分 析 主 界面 ， 如 图 6-14 所 示 。 


人 


@@Eé @ © 


数据 库 ”可 变 文件 ”固定 文件 Statistics 文 件 Data Collection IBM Cognos BI SAS 文 件 





图 6-14 
双击 EXCEL 节 点 ， 得 到 图 6-15 所 示 的 界面 。 
在 图 6-15 中 ， 在 文件 类 型 中 选择 “Excel 2007” ， 在 相关 路 径 中 选择 相应 的 EXCEL 文 件 ， 然 后 将 EXCEL 文 件 导 入 到 
Moderler 软 件 。 


如 果 看 到 EXCEL 书 点 下 面 显示 出 文件 名 ， 即 “6.1 摘 述 统计 .xlsx” ， 这 融 表 示 导 入 成 功 ， 如 图 6-16 所 示 。 


Moderler 中 有 两 种 方式 获得 一 般 摘 述 统计 的 指标 : 一 是 统计 量 忆 点 ， 二 是 数据 审核 节点 。 





使 用 指定 的 范围 


选择 工作 表 :” 转 按 索 引 
加 按 名 称 

| 工作 表 范 围 : ”图 范围 从 第 一 个 非 空 行 开始 
人 @ 单元 格 的 显示 范围 

在 空 行 中 : 卖 了 

第 一 行 存在 列 名 称 











图 6-15 





图 0-10 


1. 统 计量 书 点 




































































Delete 





生成 用 户 输 入 节 己 


从 此 任远 人行 





图 0-18 


或 者 直接 按 热 键 F2， 连 接 EXCEL 节 点 和 统计 量 节 上 后， 如 图 6-19 所 示 。 


| 计数 平均 值 放 | 总 数 


最 小 值 |Y 最 大 值 |Y 范围 
方差 标 堆 着 IY 平均 值 标 堆 误 
中 位 数 症 | 模式 





如 图 6-19 所 示 ， 双 击 统计 量 节点 ， 选 择 相应 的 变量 “销量 ”， 选 择 相应 的 统计 指标 ， 点 击 “ 运 行 ”， 得 到 图 6-20。 
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筷 - i 
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图 6-20 
2. 数 据 审核 节操 
在 “输出 ”中 选择 “数据 审核 ”节点 ， 放 入 主 界面 ， 如 图 6-21 所 示 。 














图 0-21 


同样 连接 EXCEL 节 点 和 数据 审核 节操 ， 双 击 数 据 审核 节点 ， 点 击 “ 运 行 ”， 得 到 图 6-22。 


| 最 小 值 | 最 大 值 | 平均 值 | 标准 莽 


1007.000 3000.000 2018.255 579.839 





图 0-22 


可 以 看 到 ， 在 数据 审核 节操 的 输出 中 还 有 相应 数据 的 柱状 图 。 


6.4 其 他 相应 的 指标 


数据 密度 或 者 说 数据 的 分 布 状况 ， 也 是 观察 数据 的 重要 维度 。 统 计 指 标 中 没有 一 个 指标 是 用 来 摘 述 数据 的 聚合 程度 或 者 离散 
程度 的 ， 因 此 一 般 利 用 散 点 图 来 观察 数据 。 


这 里 要 用 到 案例 文件 6.2， 从 该 文件 工作 表 中 的 数据 中 一 般 是 看 不 出 什么 东西 的 ， 如 何 观 察 这 个 数据 呢 ? 


散 点 图 虽然 很 简单 ， 但 是 不 失 为 一 个 观察 数据 的 好 方法 ， 如 对 图 6-23 中 的 B 列 和 C 列 画 散 点 图 。 
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图 6-23 ( 附 彩 图 ) 


散 点 图 很 直观 ， 从 图 6-23 中 至 少 可 以 得 到 以 下 几 个 结论 : 


. 彩电 的 “聚合 ”程度 要 高 于 冰箱 ; 


. 彩电 的 平均 值 要 低 于 冰箱 ; 


. 80000 以 上 的 点 属于 异常 值 。 


因此 ， 当 面 对 数 据 找 不 到 北 的 时 候 ， 男 个 散 点 图 一 般 会 好 很 多 。 


另外 一 个 要 讲 的 问题 是 标准 差 (方差 ) ， 人 众所周知， 标准 甜 反 映 的 是 数据 波动 的 情况 ， 标 准 差 在 EXCEL 中 的 消 数 是 stdev, 
见 案 例文 件 6.3 的 第 一 个 工作 表 ，B 列 的 标准 差 (用 STDEV 计 算 ) 是 8.53，(C 列 的 标准 差 是 20.42， 那 么 显然 < 询 数 据 的 波动 要 大 于 
B 列 ， 从 散 点 图 上 观察 也 是 如 此 。 


是 不 是 情况 一 直 如 此 呢 ? 我 们 看 到 ，B、C 两 列 的 平均 值 都 是 20， 转 到 第 二 个 工作 表 ， 对 比 B 列 和 D 列 的 情况 ，B 列 的 数据 远 
远 小 于 D 列 ， 因 此 平均 值 和 标准 差 也 小 于 D 询 ， 如 果 仪 仅 看 标准 差 ， 肯 定 会 得 到 B 列 的 波动 小 于 D 列 的 结论 。 仍 然 通过 画 散 点 图 来 
观察 ， 从 散 点 图 上 可 以 看 到 ，B 列 的 数据 波动 明显 大 于 D 列 。 


是 不 是 我 们 应 该 怀疑 标准 差 这 个 指标 ? 
实际 上 ， 根 据 笔者 的 经 验 ， 应 该 及 用 以 下 公式 ,: 


标准 差 


变异 系数 二 豆 基 从 


采用 以 上 公式 ,计算 出 B 列 的 指标 是 0.5， 而 D 列 的 指标 是 0.19， 由 此 可 以 看 出 ，B 列 的 波动 要 高 于 D 列 。 


第 / 草 ”数据 标注 : 给 数据 上 色 


没有 人 喜欢 看 大 块 的 数据 ， 我 们 总 是 希望 从 枯燥 的 大 块 数 据 中 解脱 出 来 ， 迅 速 把 握 数据 中 的 要 点 。 据 国外 有 天 统计 材料 癌 
明 ， 人 们 对 于 图 形 和 色彩 的 敏感 度 要 远 远 高 于 数字 。 


EXCEL 中 条 件 格式 可 以 对 数据 进行 上 色 ， 其 功能 不 仅 强 大 而 且 美 观 ， 成 为 目前 数据 标注 的 主要 手段 和 工具 。 


条 件 格式 的 历史 其 实 已 很 您 和信，EXCEL 的 早期 版 本 融 文 持 根据 单元 格 的 条 件 做 不 同 的 格式 ， 例 如 对 于 零 值 不 显示 、 对 于 负数 
将 其 字体 颜色 改 为 红色 等 。 


EXCEL 2007 版 义 在 条 件 格式 方面 做 了 很 大 的 改进 ， 增 加 了 著名 的 “数据 条 ”、“ 色 阶 ” 和 “图 标 集 ” 竺 内容， 使 得 条 件 格 
式 授 胶 了 比较 星 深 的 操作 ， 变 得 相对 简单 易 行 ， 从 而 应 用 度 大 大 增强 。 


下 面 将 系统 性 地 介绍 条 件 格 式 在 数据 标注 中 的 作用 以 及 使 用 方法 ， 条 件 格 式 的 局 用 在 菜单 “开始 ”中 ， 如 图 7-1 所 示 。 


























二 





条 件 格式 可 以 分 为 以 下 三 个 部 分 。 
:条件 格式 自 带 的 部 分 ， 这 部 分 规则 相对 简单 ， 不 过 也 相对 实用 。 


:中间 是 “数据 条 、 色 阶 、 图 标 集 ”部 分 ， 这 块 是 条 件 格式 应 用 最 出 彩 的 地 方 。 


: 第 三 部 分 主要 是 管理 规则 部 分 ， 其 中 “新 建 规则 中 有 利用 公式 函数 做 条 件 格式 的 部 分 ， 


7.1 大 数据 块 的 整体 标 ; 


律 。 


相对 比较 高 端 


这 节 会 用 到 案例 文件 7.1 中 的 数据 。 可 以 看 到 ， 该 例 的 第 一 张 工作 表 里 ， 满 篇 都 是 数据 ， 完 全 没 法 看 ， 所 以 得 进行 处 理 ， 这 
里 分 别 应 用 “突出 显示 单元 格 规则 ”、 “特殊 数据 选取 规则 ” 来 进行 分 析 。 


假设 我 们 要 在 该 工作 表 中 选取 超过 一 定 值 的 数据 ， 比 如 ， 挑 选 大 于 40 万 的 数值 ， 那 么 ， 


对 于 框 选 数 据 这 个 步骤 ， 可 能 有 人 已 经 注意 到 ， 很 多 人 框 选 数 据 是 像 图 7-2 这 样 的 。 


| 


| B : C D E 
次 | 训 箱 | 彩电 | 电脑 | 空调 | 


首先 要 框 选 出 要 着 色 的 数据 。 请 记 
住 ， 这 是 做 条 件 格式 的 第 一 个 重要 的 原则 ， 即 在 做 任何 一 个 条 件 格式 的 动作 之 前 ， 都 必须 先 框 选 住 全 部 要 着 色 的 数据 ， 这 是 铁 


F 


A 372026 302876 377645 396392 270931 
374525 266848 284477 368123 381855 


| 3 引 214589| 345409| 479045| 174287| 213077 
0 S243 242831 | 126118 
8 0100 361221 366641 S171ST 
6| 282569 i 


站 dd[| [| 


图 7-2 





就 是 点 击 左上 和 角 的 三 角 的 位 置 全 选 数据 ， 这 种 框 选 数据 的 方法 是 很 粗 烽 的 ， 因 为 很 可 能 会 将 无 天 的 数据 选取 进去 ， 


， 建 议 不 要 采用 这 种 框 选 数 据 的 方法 。 


另外 一 种 方式 唤 是 点 选 询 的 编号 进行 选取 ， 一 般 也 不 赞成 这 种 数据 选取 万 式 。 


一 般 情 况 


这 里 要 推荐 一 个 准确 高 效 的 方法 : 选中 数据 块 的 左上 角 ， 左 手 按 住 ctrl+shift， 右 手 用 方向 箭头 来 选择 数据 ， 例 如 向 右键 是 
选取 一 行 ， 往 下 键 则 是 选择 一 列 ， 这 样 能 够 高 效 快速 地 选择 数据 。 


况 完小 扩 巧 ， 再 往 下 操作 。 人 在 “突出 显示 单元 格 规则 ”中 选择 “大 于 ”， 如 图 7-3 所 示 。 


此 时 ， 会 出 现 如 图 7-4 所 示 的 界面 。 























图 7-4 


扎 击 图 7-4 中 的 “确定 ”后 ， 丈 会 得 到 如 图 7-5 所 示 的 标识 效果 。 


el ool sre) aos] grou 
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图 7-5 


在 “突出 显示 单元 格 规则 ”还 有 其 他 一 综 规 则 ， 例 如 重复 值 等 ， 相 对 都 比较 简单 ， 不 再 一 一 侈 述 


7.1.2 ”特殊 数据 选取 规则 


如 果 要 选择 数据 中 的 前 几 位 和 后 几 位 ， 可 以 采用 特殊 数据 选取 规则 ， 如 图 7-6 所 示 。 





导 值 最 小 的 10 项 (B)- 


了 值 最 小 的 10% 项 (O)-- 





图 7-0 


然后 ， 选 择 “ 值 最 大 的 10 项 ”， 残 会 弹出 图 7-7 所 示 的 界面 ， 点 击 “ 确 定 ” 便 可 得 到 目 己 想 要 的 效果 。 








另外 ， 还 有 “ 值 最 大 的 10% 项 ”， 这 里 选取 的 是 值 的 个 数 ， 残 是 数据 的 总 数 * 百 分 比 。 


7.2 根据 业务 逻辑 在 效 据 中 标注 上 色 


在 根据 业务 逻辑 在 数据 中 标注 上 色 时 ， 要 用 到 数据 条 、 色 阶 、 图 标 集 ， 下 面 丈 解释 一 下 它们 的 重要 作用 。 


7.2.1 效 据 条 、 色 阶 、 图 标 集 的 应 用 


1 .数据 条 


本 节 内 容 的 讲解 要 用 到 案例 文件 7.2。 选 中 该 文件 第 一 个 工作 表 中 的 数据 后 ， 选 择 条 件 格式 中 的 数据 条 ， 如 图 7-8 所 示 。 


套用 单元 格 样式 | 插入 ”删除 “格式 


单 7c 覆 


蓉 出 是 下 单元 格 规 则 (H) 








得 到 如 图 7-9 所 示 的 效果 。 


= | 











图 7-9 


可 以 看 到 ， 图 7-9 中 的 数据 条 效果 非常 美丽 : 负数 呈 红色 ， 正 数 呈 监 色 ， 零 值 企 纵 轴 上 分 布 ， 这 些 效果 或 许 融 是 条 件 格式 大 
为 流行 的 原因 吧 。 


2. 色 阶 


这 里 使 用 案例 文件 7.1 的 第 一 个 工作 表 ， 框 选 好 该 表 中 的 数据 后 ， 做 色 阶 ， 融 是 数据 条 下 面 的 那个 选项 ， 选 择 第 一 个 色 阶 ， 
束 是 红 黄 绿色 阶 ， 得 到 图 7-10 所 示 的 效果 。 


Pb 必 D 上 H 
站 - 国王 He Epis 


9 
b 


5 





35142 
| 


图 7-10 


在 “ 红 黄 绿 ” 色 阶 中 ， 红 色 表 示 比 较 小 的 数字 ， 黄 色 表 示 比 较 居中 的 数字 ， 绿 色 表 示 偏 大 的 数字 。 颜 色 越 红 ， 数 字 越 小 ， 绿 
色 越 绿 ， 数 字 越 大 。 


3. 图 标 集 


别 ， 但 是 根据 作者 多 年 跟 企 业 的 接触 ， 一 些 企业 在 图 标 集 的 选择 方面 的 偏好 还 是 有 所 不 同 的 。 


方向 

会 中 县 
全 一 所 
会 内 汉 县 


会 询 中 到 


OO 四 日 目 
@AD 
O90 
@O0W 1% 

wi 

等 级 

Wi WY LY ol oll oll oll 
和 二 中 力 口 串 串 如 可 训 


醉 图 生日 OO OO OO 
国 国 故国 加 加 DD UO 


平均 值 : 295277.4189 其 他 规则 (M)… 














图 7-11 


对 于 图 7-11， 根 据 作 者 的 经 验 ，“ 万 向 ”中 的 箭头 比较 适合 用 来 标识 时 间 序 列 上 的 变化 趋势 ，“ 形 状 ” 中 的 图 标 集 用 得 最 
多 ; “标记 ”和 “等 级 ”也 有 一 些 企 业 在 用 ， 似 乎 外 企 尤 其 是 外 资 咨询 公司 比较 倾向 于 使 用 “等 级 ”。 


对 于 案例 文件 7.1 的 第 1 个 工作 表 ， 选 择 “ 形 状 ”中 的 第 一 个 “三 色 交 通 灯 ”， 得 到 的 效果 如 图 7-12 所 示 ， 跟 色 阶 非常 类 
似 。 


L 
2 


@@ 374525|IO 266848|O 〇 284477|@ 368123|@ 38185 





7.2.2 ”规则 的 理解 
在 介绍 了 数据 条 、 色 阶 、 图 标 集 之 后 ， 下 面 来 谈 谈 条 件 格式 中 的 规则 ， 其 实 任何 一 个 条 件 格式 的 动作 ， 都 会 形成 一 个 规则 ， 
而 条 件 格式 之 所 以 强大 ， 就 是 在 于 对 规则 的 灵活 运用 。 


如 7.2.1 节 中 的 第 三 步 操作 “图 标 集 ” 所 示 ， 观 察 已 经 形成 的 条 件 格 式 的 规则 ， 在 条 件 格 式 界面 中 选择 “管理 规则 ”， 如 图 
7-13 所 示 。 





显示 其 格式 规则 | @); | 当前 选择 Ee 
副 新 建 规则 QD. .| | 嗓 编 辑 规 RlE)-. | [  XH 规 la) | | 和 | | 


规则 ( 按 也 示 顺 序 应 用 ) ” 榕 式 应 用 于 如 果 为 真 则 停止 < 


图 标 集 © DO ®@ |=$p$2.sr454 国 三 


saa [EE 关闭 ea | 应 用 | 





图 7-13 


在 条 件 格式 规则 管理 器 中 ， 可 看 到 有 一 条 规则 ， 名 称 为 “图 标 集 ”， “应 用 于 ”中 是 规则 及 挥 作用 的 工作 表 地 址 区 围 ， 图 7- 


13 中 的 例子 就 是 说 这 条 “图 标 集 ” 规 则 发 挥 作用 的 地 址 范围 是 “$B$2: $F$54”。 上 点击 “编辑 规则 ” ， 如 图 7-14 所 示 。 
编辑 格式 规则 

选择 规则 类 型 (8): 

> 基于 各 自 值 设置 所 有 单元 格 的 格式 

> 口 为 包含 以 下 内 容 的 单元 格 设置 格式 

> 公 对 排名 靠 前 或 靠 后 的 数值 设置 格式 

*” 公 对 高 于 或 区 于 平均 值 的 数值 设置 格式 

*” 公 对 唯一 值 或 重复 值 设置 格式 

> ”使 用 公式 确定 要 设置 格式 的 单元 格 


油 辑 规则 部 明 他) : 


基于 各自 值 设置 所 有 单元 格 的 格式 : 
FH | 图 标 集 区] [E 转 图 标 次 序 @) 


图 标 样式 CC): [三 及 局 | |] 回 如 显示 图 标 总 ) 


值 中 ”类 型 中 











图 7-14 
在 编辑 规则 “类 型 ”中 ， 共 有 四 种 类 型 : 数字 、 百 分 比 、 公 式 、 百 分 点 值 ， 对 条 件 格式 规则 的 解读 是 从 这 四 种 规则 开始 的 。 
(1) 数字 : 表示 左边 值 的 框 中 是 数字 。 


(2) 百分比 : 表示 左边 的 数字 是 百分比 ， 其 计算 的 基础 是 条 件 格式 区 域 中 的 最 大 值 ， 也 融 是 讽 ， 如 果 左 边 的 值 是 67， 而 区 
域 中 的 最 大 值 是 200， 则 判断 的 间 隅 值 是 200*67%= 134。 


(3) 公式 : 意味 着 左边 是 公式 或 单元 格 地 址 。 


(4) 百分点 值 : 表示 左边 的 数字 是 百分比 ， 其 计算 的 基础 是 条 件 格 式 区 域 中 的 数据 个 数 ， 也 就 是 咬 ， 如 果 左边 的 值 是 67， 
而 区 域 中 数据 是 100 个 ， 则 判断 的 间 隅 值 是 100*67% = 67。 


通过 实例 往往 能 够 更 好 地 讲 清楚 问题 ， 这 里 来 看 案例 文件 7.3， 在 该 例 中 ，A 列 中 作用 的 条 件 格 式 如 图 7-15 所 示 。 


根据 以 下 规则 显示 党 个 图 标 : 
图 标 征 ; = 加 一 是 光 型 | 全 





图 7-15 


当 类 型 是 “数字 ”时 ， 左 边 的 束 是 真实 值 ， 也 束 是 说 ， 大 于 等 于 8 的 填充 为 绿色 ，3 和 8 之 间 的 单元 格 填 序 为 黄色 ，3 以 下 的 


填 元 为 红色 。 


对 于 C 询 ， 类 型 是 “百分比 ”时 ， 知 该 区 域 的 最 大 值 是 9， 则 第 一 个 分 隅 值 是 9*67% = 6， 第 二 个 分 隅 值 是 9*33% = 3 (如 图 


7-16 所 示 ) 。 


根据 忆 下 规则 显示 党 个 图 标 : 
图 标 和 ) -pe nn 米 型 号 是 一 


Gs "a = 和 一 一 简 相 本 





图 7-10 


对 于 G 列 ， 类 型 是 “公式 ”时 ， 左 边 的 空格 中 填 的 是 单元 格 地 址 ， 相 应 单元 格 中 的 数字 是 条 件 格式 的 分 割 条 件 (如 图 7-17 所 


| 和 
| | 迁 择 规 m 型 &) 
”| | | = 基于 各 自 值 设置 所 有 单元 格 的 格式 
> 只 为 包含 以 下 内 容 的 单元 格 设 置 格式 
| 站.w 误 对 排名 靠 前 或 靠 后 的 数值 设置 格式 
| Es 反对 高 于 或 低 于 平均 值 的 数值 设置 格式 
|™ 、 仅 对 唯一 值 或 重复 值 设置 格式 
[| 信用 公式 确定 要 设置 格式 的 单元 格 


| 式 式 0): A mm IF 二 wh 和 
图 标 样式 (CC): 仅 显 示 图 标 CL) 
根据 以 下 规则 显示 各个 图 标 Se AN 


| 当 值 是 > 全 上 
当 < 公 式 且 [> el 


| 当 《 公式 
































图 7-17 


对 于 K 列 ， 当 类 型 是 “百分点 值 ” 时 ,该 区 域 中 的 数据 个 数 为 9， 两 个 分 隅 值 是 9*67% = 6 及 9*33%= 3 (如 图 7-18 所 示 ) ， 
规则 的 解释 如 下 : 如 果 单 元 格 中 的 值 比 最 小 的 6 个 数 大 ， 也 残 是 说 前 面 最 大 的 3 个 数 ， 则 标注 为 绿色 ， 中 间 的 3 个 数 标注 为 黄色 ， 
最 小 的 3 个 数 标注 为 红色 。 


图 标 和 0) Ei 已 1 证 分 





图 7-18 


稍微 举一反三 ， 如 果 要 标注 数据 区 域 中 最 大 的 10% 和 最 小 的 10%， 这 时 选择 类 型 为 “百分点 值 ”， 左 边 的 值 则 填充 为 90 和 
10， 至 于 其 中 的 原因 ， 请 读者 上 自行 思考 。 


7.2.3 ”根据 业务 需求 改变 规则 


如 图 7-17 条 件 格 式 提供 了 6 种 类 型 ， 但 是 实际 上 第 一 种 和 最 后 一 种 是 常用 的 。 第 一 种 “基于 各 目 值 设置 所 有 格式 的 单元 


格 ” 残 是 7.2.2 节 的 主要 内 容 ， 大 部 分 人 的 大 部 分 业务 需求 在 这 里 融 可 以 实现 了 ， 最 后 一 种 “使 用 公式 确定 要 设置 格式 的 单元 
格 ” 则 是 条 件 格式 中 比较 难 的 部 分 ， 这 里 说 比较 难 并 不 是 真 的 因为 难度 大 ， 而 是 根据 作者 长 期 跟 学 员 接 触 的 经 验 看 ， 大 部 分 的 学 
员 在 公式 和 消 数 上 的 功底 均 比较 注 弱 ， 所 以 使 用 起 来 会 有 一 定 的 困难 。 


至 于 第 二 种 到 第 五 种 规则 ， 忆 体 来 说 比较 简单 ， 不 再 效 述 。 


忌 之 ， 使 用 条 件 格 式 的 重要 原则 殊 是 “ 先 选 后 做 ， 先 做 后 改 ”， 也 就 是 说 ， 第 一 步 是 先 框 选 要 做 条 件 格 式 的 数据 区 域 ， 然 后 
选择 一 个 条 件 格式 ， 例 如 色 阶 或 者 图 标 集 ， 然 后 再 到 管理 规则 中 去 修改 规则 。 


7.3” 米 用 公 陈 实现 复杂 强大 的 数据 标 , 


利用 公 陈 可 以 实现 很 强大 的 数据 标注 功能 ， 以 下 特 移 来 说 明 用 逻辑 表达 式 来 标注 数据 的 原理 。 


现在 ， 要 求 将 值 超过 平均 值 50% 的 周 次 标识 出 来 。 在 没有 条 件 格 式 的 情况 下 ， 想 象 一 下 如 何 一 步 一 步 地 标识 周 次 ， 以 案例 文 
件 7.1 的 第 三 个 工作 表 为 例 进行 说 明 。 


1) 在 C 列 计算 平均 值 。 

2) 在 D 列 输入 逻辑 表达 式 : =B2>C2*1.5， 就 是 判断 B 列 是 否 大 于 C 列 的 1.5 倍 。 

3) 根据 D 列 的 逻辑 判断 结果 ， 如 果 绪 果 为 true， 融 标识 相应 的 A 列 ， 如 果 结 果 为 false， 则 不 标识 。 
我 相信 ， 写 成 这 样 的 步骤 ， 几 乎 所 有 的 人 都 能 看 伐 ， 但 是 一 步 整合 以 上 的 步骤 ， 残 没 那么 容易 了 。 


下 面 先 看 看 什么 是 逻辑 值 ， 什 么 是 逻辑 表达 陈 。 


7.3.1 ”理解 逻 可 表达 陈 的 侣 义 


在 计算 机 领域 或 者 数据 分 析 的 领域 ,有 一 类 特殊 的 值 ， 这 个 值 只 有 两 个 : true 或 者 false， 或 者 也 称 为 “ 真 ” 或 “ 假 ”。 


看 下 面 的 例子 : =1>0， 这 束 是 一 个 逻辑 表达 式 ， 其 输出 结果 是 true， 也 丈 是 1 是 大 于 0 的 。 对 于 式 子 : =1<=0， 输 出 结果 


是 false。 


由 以 上 的 式 子 可 以 看 出 ， 一 个 标准 的 逻辑 表达 了 式 是 这 样 的 结构 : = 逻辑 天 系 式 。 逻 辑 天 系 式 通 弟 是 用 来 比较 之 间 的 大 于 、 小 
于 、 等 于 这 几 种 基本 关系 ， 因 此 能 看 到 如 下 这 样 的 逻辑 表达 式 : 


=a>b 


=a<=b 


=B1<C1， 其 中 B1 和 C1 是 单元 格 地 址 。 


以 后 如 果 读 者 看 到 “=a=b” 这 种 逻辑 关系 式 ， 不 要 哆 得 奇怪 ， 这 只 是 个 简单 的 逻辑 表达 式 而 已 ， 第 一 个 “=” 没 有 什么 实 


际 意义 ， 第 二 个 “=” 表 示 a 和 b 相 等 。 


当然 实际 应 用 中 的 逻辑 表达 式 往 往 会 复杂 得 多 ， 这 是 因为 一 些 简单 的 歇 辑 关系 式 往往 被 and，or，not 这 些 逻 辑 消 数 连接 起 
来 ， 成 为 比较 复杂 的 逻辑 表达 式 。 


(1) and: 表示 多 个 逻辑 表达 式 同 时 成 立 ， 也 就 是 被 and 的 逻辑 天 系 式 必须 全 部 是 true， 其 结果 才 是 true。 
(2) or: 表示 多 个 逻辑 关系 陈 中 只 要 有 一 个 成 之 ， 其 结果 残 是 true。 


(3) not: 人 逻辑 反 函 数 ， 如 果 逻 辑 关系 式 是 true， 则 结果 为 false; 如 果 逻 辑 关 系 式 是 false， 则 结果 为 true。 


7.3.2 ” 复 末 远 辑 公式 的 应 用 


本 节 用 到 案例 文件 7.1 的 工作 表 2， 首 先 选 中 该 表 要 标注 的 A 列 ， 注 意 从 第 二 行 开始 ， 因 为 数字 是 从 第 二 行 开始 的 ， 然 后 进 
入 “新 建 规则 ”， 选 择 “使 用 公 陈 确定 要 设置 格式 的 单元 格 ”， 在 公示 栏 中 输入 公 陈 ， 如 图 7-19 所 示 。 


苹 规 则 类 型 把) : 





| > 保 对 排名 靠 前 或 靠 后 的 数值 设置 格式 
* 仅 ?高 于 或 低 于 平均 值 的 数值 设置 格式 

| > 人 _ 唯 一 值 或 重复 值 设置 格式 

| > 使 用 公式 确定 要 设置 格式 的 单元 格 
































图 7-19 


然后 选择 一 个 格式 即 可 。 


注意 ” 当 光 标 放 在 公示 栏 里 面 后 ， 要 用 F2 键 在 EXCEL 主 界面 和 公示 栏 中 进行 切换 ， 和 否则 当 光 标 在 公示 栏 里 面 左 右 移动 
时 ， 会 将 EXCEL 主 界面 中 的 单元 格 地 址 写 到 公式 中 ， 这 会 带 来 很 多 烦恼 。 
再 看 一 个 比较 复杂 为 数 的 例子 ， 见 案例 文件 7.1 的 工作 表 4。 


现在 的 要 求 是 ， 将 表 4 中 的 B、C、D 三 列 不 等 的 数据 标注 出 来 。 可 采用 公式 进行 标注 : 选中 A 列 ， 在 条 件 格式 的 公式 栏 输入 
如 图 7-20 所 示 的 公 陈 。 


击 辑 规则 内 朋 是 ) 
为 桂 合 此 从 式 的 二 这 站 格 陈 人 0): 


图 7-20 





and 闵 数 表 明 B2、C2、D2 和 连 等 ， 在 and 函 数 忆 前 加 上 not 则 表明 不 是 连 等 的 ， 则 可 以 得 到 如 图 7-21 所 示 的 标注 效果 。 





| 销售 类 


| 销售 区 域 2 
| 销售 区 域 3 
| 销售 区 域 : 
| 销售 区 域 5 
| 销售 区 域 6 
| 销售 区 域 7 


| 销售 区 域 8 
| 销售 区 域 9 
| 销售 区 域 10 
区 域 11 








一 次 采集 


223980 
11279b 
ladi 
<] 1 
<3d0014 
PAN 
ZI930958 
e371791 
] yedes 
e132TT1 
<41316 
ll14000 
ZUbU39 
lo3136 
dc2116 





图 7-21 
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ee 





de400 
112796 
< 二 941 
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二 次 采集 ”最 终 数据 


223980 
112796 
124947 
217184 
298074 
207807 
253898 
237751 
152423 
213277 
241316 
114182 
206099 
189136 
301234 





进一步 ， 如 果 要 实现 整 行 标注 ， 如 何 处 理 ? 选中 四 列 ， 同 样 输入 上 面 的 公式 ， 得 到 如 图 7-22 所 示 的 效果 。 


经 过 作者 的 研究 友 现 ， 要 想 实 现 整 行 标注 ， 需 要 实施 一 步 看 上 去 “画师 添 足 ”的 操作 ， 在 上 述 的 逻辑 表达 陈 


=not (and (b2=c2，c2=d2) ) 中 ， 列 其 实 是 不 变动 的 ， 本 来 没有 必要 在 列 前 面 加 上 9$ 符 号， 但 是 现在 我 们 偏偏 要 在 列 号 之 前 


加 上 $， 如 图 7-23 所 示 。 
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图 7-23 
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此 时 ， 可 得 到 如 图 7-24 所 示 的 整 行 标 注 效果 。 
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7.4 ”如 何在 一 张 表格 中 实现 多 种 标注 规则 
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前 面 已 讨论 了 条 件 格 式 的 规则 ， 这 些 都 是 简单 的 单个 规则 的 应 用 ， 但 在 实际 工作 中 ， 经 弟 会 磁 到 多 个 规则 的 情况 。 


7.4.1 多 规则 的 应 用 


请 看 案例 文件 7.1 工 作 表 5， 假 设 对 于 该 表 ， 希 望 标注 的 规则 有 3 条 : 


` 把 达成 超过 〈 含 等 于 ) 80% 的 标识 出 来 ， 用 黄色 填充 。 


. 把 占 比 超过 ( 含 等 于 ) 20% 的 标识 出 来 ， 用 蓝 色 填充 。 


` 把 达成 超过 ( 含 等 于 ) 80% 并 且 占 比 超过 ( 含 等 于 ) 20% 的 用 红色 字体 。 


仔细 分 析 这 三 条 规则 ， 对 于 第 1 条 规则， 上 海 和 江苏 是 符合 的 ， 对 于 第 2 条 规则 ， 上 海 、 江 苏 、 浙 江都 是 符合 的 ;对 于 第 3 条 
规则 ， 上 海 、 江 苏 都 是 符合 的 。 


很 显然 ， 这 三 条 规则 是 有 冲突 之 处 的 ， 现 在 一 步 一 步 地 实现 规划， 看 看 它 是 如 何 逐 步 友 挥 作用 的 。 


第 一 步 : 执行 第 1 条 规则 ， 选 择 A2: A4， 新 建 规则 如 图 7-25 所 示 。 
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图 7-25 


其 中 C 列 是 达成 这 一 列 ， 效 果 如 图 7-26 所 示 。 


让 全 2 让 售 量 这 成 
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图 7-20 


第 二 步 : 执行 第 2 条 规则 ， 同 样 新 建 规则 ， 如 图 7-27 所 示 。 
新 建 格式 规则 | | 


选择 规则 其 型 8) 

> 基 十 党 自 值 保 直 所 有 单元 首 的 情 式 
”只 为 己 合 以 下 内容 的 单元 梢 保 直 梢 式 
b>” 对 排 尖 徘 前 或 徘 后 的 数值 识 直 格式 
b>” 避 对 电 十 或 眉 二 平均 值 的 数值 全 二 梢 式 
">” 羽 对 唯一 恒 或 重 县 垣 床 站 格子 

bp 使 用 尾 式 硝 定 要 保 站 格式 的 单元 格 
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则 会 


图 7-27 


得 到 的 效果 如 图 7-28 所 示 。 
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图 7-28 
可 以 明显 地 看 到 ， 两 条 规则 发 生 了 冲突 ， 第 二 条 规则 直接 履 盖 了 第 一 条 规则 。 我 们 观察 一 下 规则 的 分 布 ， 如 图 7-29 所 示 。 


条 件 格式 规则 管理 咯 
显示 其 格式 规则 人 ): | 当前 工作 去 | 
男 新 汗 检 则 名 ..，| | 导 编辑 规则 区) aa x Wy | | 全 | |- 


规则 ( 按 有 所 示 踢 序 应 用 ) “站 式 应 用 十 
公式 : =D2>=0.2 微软 早 越 ”haBbCe |=$h$2:$h$4 








公 =C23=0.8 Ee -qd2:$hid 





图 7-29 


可 以 看 到 ， 先 建立 的 规则 位 于 规则 的 下 方 ， 后 友 挥 作用 ; 后 建立 的 规则 位 于 规则 区 的 上 方 ， 移 友 挥 作用 。 这 融 是 后 建立 的 规 
禾 兰 表面 的 规则 的 原因 。 


第 三 步 : 继续 建 第 3 条 规则 ， 如 图 7-30 所 示 。 
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图 7-30 


得 到 的 效果 如 图 7-31 所 示 。 
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图 7-31 


7.4.2 ”如 何 理解 “ 直 真 则 仿 止 " 


为 了 避免 规则 之 间 的 冲突 ， 可 以 利用 “ 遇 真 则 停止 ”这 一 功能 ， 针 对 上 一 市 建立 的 这 三 条 规则 ， 都 义 选 上 “如 果 为 真 则 停 
止 ”， 如 图 7-32 所 示 。 


| 条 件 格式 规则 管理 器 
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图 7-32 


这 样 做 的 售 勾 是 ， 一 旦 第 一 条 规则 成 立 ， 结 果 为 和 真 ， 则 后 续 的 规则 惑 不 再 执行 了 ， 这 样 焉 避免 了 规则 之 间 的 冲突 。 


换 的 效果 ， 功 能 比较 强大 。 


第 8 章 “找到 数据 中 的 “特殊 分 子 ' 


“例外 管理 (exception management) ”是 目前 企业 管理 中 流行 的 理念 之 一 ， 也 惑 是 说 ， 在 企业 运 曹 状况 正常 的 时 候 ， 
管理 者 无 须 过 多 关注 ， 只 有 人 在 企业 经 营 状 况 出 现 异 常 的 时 候 ， 管 理 者 才 需 要 及 时 介入 。 


我 有 一 个 同学 ， 他 在 一 家 房地产 公司 当 总 经 理 ， 那 家 公司 有 400 多 名 员工 ， 我 同学 (下 文 称 之 为 C) 很 忙碌 ， 他 总 是 出 差 ， 
每 年 大 概 有 1/3 的 时 间 在 外 面 出 差 。 我 曾经 问 过 他 ， 一 家 有 400 多 员工 的 公司 ， 应 该 不 算 小 公司 了 ， 他 是 如 何 管理 的 。 


5 告诉 我 ， 他 在 管理 方面 ， 主 要 靠 两 点 : 一 是 制度 ， 二 是 采用 了 “例外 管理 ”。 虽 然 他 经 单 开 会 出 关 ， 但 是 公司 各 个 方面 如 
果 有 异常 情况 ， 他 会 第 一 时 间 得 到 消息 ， 并 且 决 定 是 人 否 介 入 处 理 。 


那么 ， 如 何 根据 数据 界定 业务 中 的 异常 值 呢 ? 下面 一 起 来 看 看 。 


8.1 ”什么 是 异 吊 值 


什么 是 业务 中 的 异 弟 值 ? 这 在 实际 工作 中 其 实 还 没有 定论 ， 一 个 大 致 的 判断 标准 是 “偏离 了 原来 数据 的 变化 轨迹 ， 束 可 以 视 
为 异常 值 ”， 例 如 原先 一 直上 升 的 数据 ， 现 在 突然 下 降 了 ， 或 者 说 上 升 的 速度 下 降 了 ， 都 可 以 视 为 异常 值 。 


下 面 比较 系统 地 看 一 下 常见 的 异 弟 值 的 判断 标准 。 


8.2” 异 帅 值 的 判断 标 闪 


判断 业务 异常 值 的 标准 大 致 有 以 下 几 个 。 
(1) 特别 大 (小 ) 


如 果 在 业务 值 中 出 现 了 特别 大 或 特别 小 的 值 ， 那 么 束 可 以 认为 是 异常 值 。 什 么 叫 特别 大 或 者 特别 小 呢 ? 一般 以 数据 的 平均 值 
作为 比较 的 标准 ， 如 果 超 出 平均 值 的 ?0% 以 上 或 者 小 于 平均 值 ?0% 以 上 ， 融 可 以 视 为 平均 值 了 。 


(2) 脱离 箱 体 

“ 箱 体 ”本 来 是 一 个 金融 术语， 特 指 股 票 价 格 在 一 个 近似 粉 形 的 沁 围 内 波动 ， 股 价 运行 到 箱 体 的 上 沿 ， 基 本 上 整 会 下 跌 ， 股 
票 运行 到 箱 体 的 下 沿 ， 基 本 上 就 会 反弹 上 涨 。 

在 金融 市 场 中 ， 箱 体 的 形成 有 其 一 定 的 道理 。 例 如 对 一 个 股票 ， 大 家 对 其 的 价值 判断 是 在 9 ~ 12 元 之 间 ， 那 么 当 股 价 上 升 接 


近 到 12 元 左右 时 ， 大 家 认为 股价 很 难 突破 12 元 ， 于 是 纷纷 抛 出 股票 ， 股 价 随 之 下 跌 ; 反之 站 然 ， 当 股价 下 跌 人 至 9 元 附近 时 ， 大 家 
认为 股价 很 难 真 正 跌 破 9 元 ， 股 价 已 经 很 低 ， 具 有 投资 价值 ， 于 是 纷纷 买 入 股票 ， 股 价 随 乙 上 扬 。 


除了 金融 市 场 之 外 ， 一 般 的 业务 数据 也 存在 箱 体 变 动 的 规律 。 例 如 一 般 估计 某 地 分 公司 的 销售 收入 在 10 ~ 30 万 之 间 ， 淡 季 
的 销售 收入 在 10 万 左右 ， 旺 季 的 销售 收入 在 30 万 左右 ， 如 果 销 售 收 入 跌 破 了 10 万 或 者 超过 了 30 万 ， 则 表明 销售 收入 确实 突破 了 
箱 体 ， 值 得 天 注 。 


(3) 趋势 改变 
如 果 本 来 一 个 值 是 上 升 的 ,现在 下 降 了 ， 或 者 反 过 来 ， 本 来 是 下 降 的 ， 现 在 不 降 反 升 了 ， 那 么 这 束 代 表 趋 势 友 生 了 改变 。 


"趋势 ”这 两 个 字 在 业务 分 析 和 数据 分 析 领 域 是 一 个 非常 常见 的 词汇 ， 我 们 经 常 说 “中 国 的 房地产 经 过 了 十 多 年 的 上 涨 ， 趋 
势 已 经 形成 ， 什 么 时 候 趋 势 友 生 转 变 ， 我 们 都 不 知道 ”。 表 深入 一 步 ， 如 果 数 据 一 直 在 增长 ， 现 在 突然 不 增长 了 或 者 下 降 了 ， 是 
不 是 意味 着 趋势 友 生变 化 了 呢 ? 或 者 说 反方 同 变 动 多 少 ， 才 能 够 理解 为 趋势 的 反 转 呢 ? 例如 一 个 数据 上 涨 到 峰值 1000， 然 后 下 
跌 到 980， 是 不 是 意味 着 趋势 友 生 了 变动 呢 ? 


天 于 这 个 问题 ， 其 实 挺 复杂 的 ， 金 融 行业 或 许 有 很 好 的 答案 ， 一 般 意 义 上 ， 大 家 比较 认可 的 一 个 况 法 是 : 如 果 股 指 从 最 高 后 
下 跌 超过 20%， 残 认为 趋势 友 生 了 反 转 ， 反 之 亦 然 。 例 如 股指 最 高 是 5000 点 ， 如 果 下 跌 超 过 1000 点 ， 跌 到 4000 点 以 下 ,我们 丈 
认为 趋势 反 转 进入 了 熊市 ; 有 反之， 如 果 股 指 最 低 是 2000 点 ， 如 果 上 涨 了 400 点 达到 2400 点 ， 再 加 上 成 交 量 的 配合 ， 我 们 整 认 为 
股指 反 转 进行 了 牛市 。 


其 他 行业 的 规律 不 一 而 足 ， 需 要 结合 行业 的 具体 情况 加 以 研判 。 


(4) 变化 率 的 变化 


从 严格 意义 上 讲 ， 变 化 率 的 变化 也 属于 趋势 变化 的 范畴 ， 也 就 是 说 原来 增长 得 很 快 ， 现 在 增长 率 下 降 了 ， 这 束 属 于 变化 率 的 
变化 ， 实 际 上 也 算是 趋势 变化 的 一 个 变种 吧 。 


之 所 以 把 “变化 率 的 变化 ”单独 作为 异 弟 值 判 断 的 标准 ， 是 因为 笔者 在 跟 企 业 接 触 的 过 程 中 ， 友 现 有 一 些 企业 非常 天 注 数 据 
变化 率 的 变化 ， 因 此 特地 将 变化 率 的 变化 列 为 异 弟 值 判断 的 标准 之 一 。 


另外 ， 异 常 值 的 标准 绝对 不 是 一 成 不 变 的 ， 以 上 所 列举 的 只 是 一 些 主流 的 判断 标准 ， 在 实际 工作 中 读者 可 以 根据 自己 工作 的 
实际 情况 来 进行 判断 。 


8.3 ”用 绘图 扩 015 找 到 异 吊 值 


绘图 法 在 数据 分 析 中 扮演 着 重要 的 作用 ， 不 仅 直 观 ， 而 且 和 人 简单。 实际 上 根据 作者 的 了 解 ， 企 业 中 的 管理 人 员 特 别 喜欢 用 图 示 
法 来 观察 数据 。 


散 点 图 是 诸多 图 形 中 最 为 基本 的 一 种 ， 在 图 示 法 中 有 着 重要 的 作用 .。 


8.3.1 散 点 图 

图 8-1 是 针对 B 列 冰箱 和 C 列 彩电 绘制 的 散 点 图 。 
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从 图 8-1 可 以 得 出 以 下 的 结论 : 


1) 这 两 个 系 刘 的 数据 ， 大 部 分 在 10 万 ~ 80 万 ， 


~ 


2) 监 色 的 冰箱 系列 的 数据 要 大 于 红色 的 彩电 系列 ; 


~ 


3) 80 万 以 上 的 数据 可 以 视 为 异 剃 值 。 


~ 


另外 ， 如 前 文 所 言 ， 从 散 点 图 上 可 以 看 出 所 谓 的 “数据 密度 ”， 彩 电 的 数据 密度 显然 要 高 于 冰箱 的 数据 密度 。 


8.3.2 ”面板 图 


通过 散 点 图 可 以 比较 有 效 地 观察 数据 的 情况 ， 在 散 点 图 的 基础 上 发 展 起 来 的 面板 图 则 功能 更 加 强大 ， 目 前 各 种 专业 工具 中 都 
有 散 点 图 绘制 功能 。 以 下 还 是 以 SPSS 和 Moderler 为 例 来 说 说 怎么 绘制 面板 图 。 


1. 在 SPSS 中 绘制 面板 图 

EXCEL 的 散 点 图 相对 来 说 是 比较 简单 的 ， 专 业 软 件 SPss 不 仅 可 以 画面 板 图 ， 还 可 以 更 有 效率 地 观察 数据 。 以 案例 文件 8.2 的 
数据 为 例 ， 若 要 研究 购买 的 图 书 的 价格 和 年 龄 之 间 的 天 系 ， 按 照 一 般 散 点 图 的 做 法 ， 男 个 普通 的 散 点 图 即 可 ， 但 是 SPSS 给 我 们 
提供 了 更 加 强大 的 工具 ， 请 看 以 下 步骤 。 

首先 在 SPSS 主 界面 中 依次 选择 “图 形 -I 日 对 话 框 - 散 点 /点 状 ” (如 图 8-2 所 示 ) ， 这 里 比较 有 趣 的 是 “| 旧 对 话 框 ”， 我 在 讲 


SPSS 课 程 的 时 候 ， 有 学 员 问 起 为 什么 是 “ 旧 对 话 框 ”。 原 因 是 SPSS 软 件 在 不 断 地 改进 ， 而 很 多 老 用 户 已 经 习惯 了 老 版 本 的 软件 
界面 ， 对 新 的 软件 界面 很 不 习惯 ,因此 SPSS 软 件 设置 了 “| 旧 对 话 框 ”。 


| 图 形 (G) ”实用 程序 (U) ”窗口 (W) ”帮助 
由 卓 图 表 构建 程 序 (C)... : 
图 形 画 板 模板 选择 程序 . 
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四 weigsmo- 
国 人 口 金宇 塔 (和 ). 
到 散 点 /点 状 (S). 








进入 “ 散 点 /点 状 ” 界 面 后 ， 选 择 人 入 单 分 布 ， 如 图 8-3 所 示 。 





然后 会 弹出 图 8-4 所 示 的 界面 。 
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图 8-4 是 实现 SPSS 面 板 图 的 主 界面 ， 相 对 于 普通 的 EXCEL 绘 图 ，SPSS 绘 图 提供 了 更 多 的 选项 ， 可 在 “设置 标记 ”中 填 入 性 
别 ， 在 “面板 依据 ”中 的 “ 行 ” 中 填 入 “推荐 ”这 个 字段 ，“ 列 ”中 填 入 “教育 程度 ”这 个 字段 。 看 看 图 8-5 所 示 的 效果 吧 ! 
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图 8-5 【《 附 彩 图 ) 


图 8-5 束 是 典型 的 面板 图 ， 实 际 上 束 是 用 “性 别 ”、 “教育 程度 ”、 “推荐 ”来 做 成 一 个 个 像 小 格子 一 样 的 散 点 图 ， 这 样 融 
可 以 一 目 了 然 地 观察 数据 啦 ! 例如 从 “推荐 ”的 角度 看 ，1 和 2 的 数据 是 比较 密集 的 ， 因 此 要 重点 关注 数据 密集 的 区 域 的 数据 的 
分 布 规律 。 


2.Moderler 中 绘制 面板 图 


相对 SPSS，Moderler 提 供 的 绘图 工具 更 加 强大 。 以 案例 文件 8.3 为 例 ， 在 Moderler 界 面 上 导入 案例 文件 8.3 的 sav 文 件 ， 在 
图 形 选 项 卡 中 找到 “图 ”节点 并 连接 到 文件 节点 上 (如 图 8-6 所 示 ) 。 


这 里 仍然 以 考察 收入 和 年 龄 的 关系 为 例 ， 在 “图 ”市 点 里 ， 在 X 字 段 中 选择 “年 龄 ”，Y 字 段 中 选择 “收入 ”， 操 击 “ 运 
行 ”， 得 到 如 图 8-7 所 示 的 图 形 。 


图 8-7 束 相当 于 EXCEL 中 的 一 个 散 点 图 ， 现 在 看 看 Moderler 中 是 如 何 实现 面板 图 效果 的 。 


通过 交 时 字段 的 定义 ， 例 如 在 “颜色 ”中 选择 “居住 地 ”， 意 思 融 是 将 不 同 的 居住 地 表示 为 不 同 的 颜色 ， 如 图 8-8 所 示 。 
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图 8-9 


可 以 发 现 Moderler 中 的 颜色 和 SPSS 中 的 “设置 标记 ” 颇 为 类 似 。 同 时 Moderler 也 可 以 实现 多 种 交 蔷 效果 ， 按 图 8-10 进 行 
置 。 
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交 辣 字段 类 型 


最 终 得 到 的 效果 如 图 8-11 所 示 。 
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图 8-11  《 附 彩 图 ) 
另外 还 有 其 他 几 种 效果 ， 解 释 如 下 。 
- 大 小 : 以 系列 图 标的 大 小 尺寸 来 做 数据 划分 对 比 。 
形状: 以 系列 图 标的 不 同 的 形状 来 做 数据 划分 对 比 。 
- 动态 : 以 页 面 动画 的 形式 来 做 数据 划分 对 比 。 


透明 度 : 将 不 同 的 数据 做 成 不 同 的 透明 化 ， 以 实现 数据 对 比 。 


8.4 用 公 陈 轴 数 法 友 据 寞 单 但 


在 实际 工作 中 ， 数 据 乙 间 往 往 存 在 着 逻辑 关系 ， 例 如 ， 在 A 股 的 日 线 数据 中 ， 如 果 友 现 采 股票 今天 的 收盘 价 比 昨天 的 低 了 
20%， 那 么 只 有 两 种 可 能 ， 一 是 这 个 股票 今天 除权 了 ， 二 是 数据 有 错 。 原 因 很 简单 ，A 股 有 涨 跌停 板 制 度 ， 如 果 不 是 因为 除权 ， 


是 不 可 能 涨 跌幅 超过 10% 的 。 
条 件 格 式 在 发 据 异 弟 值 方面 往往 起 到 重要 的 作用 ， 以 案例 文件 8.1 的 第 二 个 工作 表 为 例 。 


该 表 的 D 列 ， 数 字 从 1 到 6 表示 学 历 逐 步 变 高 ，1 代 表 初中 ， 而 5 代表 硕士 ，6 代 表 博 士 ，C 列 是 年 龄 。 


由 于 小 学 现在 实行 6 年 制 ， 现 在 基本 上 学 生 上 大 学 的 年 龄 是 18 ~ 19 岁 ， 大 学 毕业 年 龄 是 22 ~ 23 罗 ， 硕 士 毕业 年 龄 是 25 ~ 26 
岁 ， 博 士 正 常 毕业 年 龄 (按照 3 年 学 制 计算 ) 是 28 ~ 29 岁 。 如 果 数 据 中 出 现年 龄 过 小 而 学 历 较 高 (硕士 或 者 博士 ) 的 情况 ， 那 应 
该 是 不 正 单 的 。 


以 下 是 求解 的 步骤 : 


1) 进入 条 件 格式 ， 如 图 8-12 所 示 。 


















































图 8-12 


2) 选择 公 陈 函数 ， 如 图 8-13 所 示 。 


和 二 规 刚 量 | 实 


选择 规则 类 型 (8): 
b> 基于 各 自 值 六 站 所 有 单元 格 的 格式 

b>” 只 为 电 含 以 下 内 疹 的 单元 格 广 直 悄 去 
b>” 侈 对 排名 徘 前 或 等 后 的 数值 及 丰 档 环 
王公 对 局 十 或 盆 寺 平均 十 的 玫 坟 六 上 直 梢 也 
| w 翁 对 唯一 值 或 吾 县 值 设 站 格式 

bp 使 用 公式 确定 要 训 直 格式 的 单元 格 


编辑 规则 说 明 字 ): 








为 付 合 此 公式 的 值 识 n 相 式 @: 
























































图 8-13 


3) 在 公式 栏 中 输入 公式 ， 如 图 8-14 所 示 。 





| Fr 

| > 只 为 包含 以 下 内 容 的 单元 格 设置 格式 
”人 避 对 排名 靠 前 或 靠 后 的 数值 设置 格式 
“pp 人 避 对 高 于 或 低 于 平均 值 的 数值 设置 格式 
> 公 对 唯一 值 或 重复 值 设 置 格式 

“pp 使 用 公式 确定 要 设置 格式 的 单元 格 


















































图 8-14 


公示 栏 中 的 and 国 数 表 示 “ 年 龄 在 25 岁 以 下 ( 含 25 岁 ) ”、 “学 历 是 硕士 或 者 博士 ”这 两 个 条 件 同时 成 立 ， 也 就 是 说 and 六 
数 的 结果 是 true 时 ， 在 C 列 标注 红色 ， 如 图 8-15 所 示 。 
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图 8-15 


类 似 的 例子 很 多 ， 不 再 效 述 


8.5 ”三 倍 标准 才 法 


在 讲述 “三 售 标准 磊 法 ”之 前 ， 首 先 让 我 们 把 时 间 推 回 到 2005 年 ， 讲 述 一 个 作者 杀 历 的 寻求 异常 值 的 故事 。 


当时 作者 还 在 上 海 的 某 企业 工作 ， 这 家 企业 经 常 接 一 些 中 国 移动 或 者 中 国电 信 的 数据 方面 的 业务 和 项 目 。2005 年 的 某 一 
天 ， 我 们 接 到 了 客户 的 一 个 需求 : 


这 家 客户 是 中 国 移动 的 一 家 省 分 公司 ， 客 户 很 已 ， 确 切 地 说 客户 的 领导 很 忙 ， 总 是 忙于 开会 或 者 出 差 ， 没 时 间 看 各 种 业务 报 
表 ， 但 是 客户 还 是 天 心 业 务 的 状况 的 ， 尤 其 是 天 心 业务 中 的 “有 异 单 值 ”， 这 举 异 弟 值 包括 业务 数据 中 比较 大 的 值 、 比 较 小 的 值 ， 
以 及 跟 原 来 的 趋势 变化 相左 的 值 等 ， 但 是 客 尸 只管 提 需 求 ， 疫 有 对 什么 是 异 弟 值 进行 一 个 界定 。 


当时 中 国 移动 该 省 分 公司 的 业务 主要 有 短信 、 彩 
式 通知 到 他 们 的 手机 。 


一 


言 、 彩 铃 、IVR 等 ， 客 户 要 求 将 各 种 业务 的 异常 值 挑选 出 来 后 ， 用 短信 的 方 


志 到 这 个 需求 之 后 ， 分 析 过 程 如 下 : 客户 没 有 对 有 异 单 值 的 判断 标准 进行 界定 ， 那 么 我 们 可 以 目 行 界定 腊 单 值 的 判断 标准 ， 经 
过 讨论 我 们 决定 采用 行业 内 比较 流行 的 、 比 较 “ 大 牌 ”的 判断 标准 ; 用 户 规定 用 短信 的 方式 通知 到 手机 ， 这 也 惑 决定 了 要 友 适 的 
异常 值 的 内 容 要 比较 精简 ， 内 容量 不 能 过 大 。 


我 们 挑选 的 算法 就 是 “三 倍 标准 差 法 ”。 现 在 来 系统 地 看 看 “三 倍 标准 差 法 ”， 先 来 看 数据 的 移动 平均 ， 对 于 下 面 的 数组 序 
列 : 


3, 4, 4.2, 5, 5.6, 6, 6.1, 7, 7.5, 6.4 

如 果 计 算 其 移动 平均 ， 按 照 周期 为 3 计算 ， 那么 第 一 个 移动 平均 值 的 计算 方法 如 下 : 
(3+4+4.2 ) /3=3.73 

按 此 方法 ， 可 类 推 计算 出 后 续 的 移动 平均 值 。 


从 统计 的 角度 看 ， 这 一 连 串 计算 得 到 的 移动 平均 值 反 映 了 数据 “应 该 是 什么 ”， 也 丈 是 说 数据 变化 的 中 轴 是 什么 。 在 EXCEL 


中 计算 移动 平均 很 简单 ， 融 是 average 冰 效 。 
再 来 看 数据 的 波动 情况 ， 通 单 用 标准 差 来 反映 数据 的 波动 情况 ，EXCEL 中 的 阔 数 是 STDEV， 那 么 三 倍 标准 差 的 合 义 是 : 
1) 如 果 数 据 在 平均 值 的 正 负 一 售 标准 牵 范 围 之 内 波动 ， 则 视 为 正常 波动 ; 
2) 如 果 数 据 在 平均 值 的 正 负 一 售 标 准 磊 泡 围 之 外 ， 并 且 在 两 倍 标准 笑 的 范围 内 波动 ， 则 视 为 普通 告 管 ; 
3) 如 果 数 据 在 平均 值 的 正 负 二 售 标准 帮 荡 围 之 外 ， 并 且 在 三 倍 标准 牵 的 范围 内 波动 ， 则 视 为 较 严 重 告 警 ; 
4) 如 果 数 据 在 平均 值 的 正 负 三 售 标准 笑 范 围 之 外 ， 则 视 为 严重 告警 。 


图 8-16 可 以 更 加 清晰 地 看 到 数据 的 波动 和 告警 情况 。 
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图 8-10 
另外 一 个 重要 的 规则 是 : 数据 波动 超过 三 倍 标准 差 的 概率 不 超过 59%。 这 是 一 条 重要 的 统计 学 规律 ， 可 以 用 规范 的 统计 学 推 
导 过 程 推导 得 出 这 个 结论 。 
为 了 验证 这 个 规律 ， 我 们 选择 了 中 国 A 股 大 盘 收 盘 指 数 来 验证 这 个 原理 ， 见 案例 文件 8.1 的 第 三 个 工作 表 ， 该 表 选 取 了 1992 
年 2 月 日 11 到 2012 年 9 月 12 日 之 间 的 5018 个 交易 日 的 A 股 大 盘 收 盘 指数 的 数据 ， 采 用 AVERAGE、STDEV 等 国 数 计算 其 移动 平均 


值 和 标准 兰 ， 经 过 统计 得 到 结论 如 图 8-17 所 示 。 
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图 8-17 


从 图 8-17 可 以 看 出 ， 中 国 A 股 的 波动 是 比较 剧烈 的 ， 在 上 述 的 5018 个 交易 日 中 ， 轻 微 告 警 的 交易 日 就 达到 3131 天 ， 也 就 是 
接近 2/3 的 交易 日 是 波动 轻微 告警 的 ， 有 944 个 交易 日 较 严 重 告警 ， 也 瓯 是 这 接近 1/5 的 交易 日 是 较 严 重 告警 ; 有 158 个 交易 日 是 
波动 严重 告警 ， 占 比 是 3.159%， 正 处 于 5% 以 内 ， 这 与 之 前 讲 的 统计 学 规律 相 吻 合 。 


在 前 面 的 案例 中 ， 我 们 运用 “三 们 标准 差 法 ”对 数据 进行 烽 选 后 ， 将 较 严 重 告警 通过 邮件 及 送 给 客户 ， 将 严重 告警 的 数据 通 
过 短信 发 送 给 客 尸 ， 获 得 了 较 好 的 业务 跟 路 和 示 管 效果 ， 且 得 到 了 客户 的 好 评 和 赞 疯 。 
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第 9 章 ” 相 天 分 析 与 决策 树 


从 笔者 的 视角 来 看 ， 从 这 一 章 开始 ， 才 开始 进入 真正 的 数据 分 析 ， 因 为 我 忌 洁 得， 真正 的 数据 分 析 是 从 相关 分 析 开 始 的 。 


之 所 以 把 相关 分 析 和 决策 树 放 在 一 草 里 面 讲 ， 是 因为 相关 分 析 和 决策 树 虽 然 在 分 析 方 法 上 有 疾 别 ,但 是 它们 都 属于 “数据 扫 
搞 ” 的 泡 畴 。 在 进行 数据 分 析 时 ， 可 以 考虑 先 用 相 天 和 决 案 树 扫 摘 一 下 数据 ， 使 目 己 心里 有 数 ， 然 后 再 开始 分 析 数 据 。 


相关 分 析 的 学 畴 比较 广泛 ， 以 下 主要 介绍 其 中 两 种 : 一 是 单个 指标 之 间 的 相关 性 ， 二 是 指标 组 之 间 的 相关 性 。 


9.1 Pearson 相 天 


本 书 的 一 个 重要 原则 是 ， 不 多 说 理论 ， 而 是 及 用 通俗 的 语言 让 大 家 明日 数据 分 析 的 朴素 原理 。 


所 谓 的 pearson 相 天 ， 融 是 分 析 数 据 的 变动 量 之 间 的 天 系 ， 例 如 数据 A 原 来 是 100，B 原 来 是 10， 如 果 A 变 动 为 110， 融 是 A 增 


长 了 10%，B 现 在 是 10.7， 残 是 B 增 长 了 7%， 也 就 说 A 和 B 之 间 是 正 相 关 。 相 关系 数 公式 如 下 : 


4 数据 的 变化 率 


天 系数 一 、 
作 人 大 和 一 肪 数据 的 变化 率 


同样 ， 如 果 人 A 变化 了 10%，B 变 化 了 -5%， 我 们 束 品 A 和 B 是 负 相 关 的 ， 如 果 A 变 化 了 10%，B 变 化 了 -0.2%， 我 们 束 说 A 和 B 是 
低 相 关 或 者 无 关 的 。 


9.1.1 应 用 场景 


说 到 应 用 场景 ， 我 在 做 培训 瑟 课 纲 的 时 候 ， 通 常 都 把 相关 分 析 放 在 第 一 位 ， 以 下 通过 两 个 案例 来 介绍 一 下 相关 分 析 的 应 用 场 


2013 年 ， 上 海 一 家 外 资 药 业 公司 的 团队 主管 在 与 我 过 论 培训 安排 时 ， 曾 问 我 : “ 纪 老师 ， 有 没有 一 种 万 法 ， 能 够 分 析 我 们 
的 数据 和 竞争 对 手数 据 乙 间 的 “ 头 对 头 ”的 竞争 天 系 ? ”我 问 他 什么 是 “ 头 对 头 ” 的 竞争 天 系 ， 是 不 是 作者 的 数据 上 升 ， 对 方 的 
数据 融 下 降 ” 或 者 反 过 来 ”对 方 的 回答 说 是 的 。 


进一步 沟通 得 大， 这 家 外 资 药 业 公 司 拥有 比较 完备 的 产品 线 ， 业 务 数 据 保 仓 得 比较 完整 ， 同 时 该 公司 也 拥有 竞争 对 手 的 产品 
线 比较 完备 的 数据 (我 是 比较 好 奇 他 们 是 如 何 拿 到 竞争 对 手 的 数据 的 ) ， 因 此 他 们 想 知 道 在 多 产品 线 的 情况 下 ， 本 公司 与 竞争 对 
手 是 如 何况 争 的 。 


第 二 个 应 用 场景 是 国家 一 线 城市 专车 市 场 的 分 析 ， 专 车 市 场 起 源 于 国外 ， 实 际 上 束 是 私家 和 车 通过 网 约 车 平台 获得 了 营运 的 冤 
格 。 专 车 市 场 兴起 后 ， 我 们 开始 关注 这 个 问题 ， 束 是 专车 市 场 是 人 否 降 低 了 正规 出 租车 司机 的 收入 ? 是 否 抢 了 正规 出 租车 司机 的 饭 


兢 ? 


我 看 到 有 的 材料 上 说 ,已 经 有 人 对 正规 出 租车 司机 的 收入 和 营运 平台 的 数量 之 间 进 行 了 相关 分 析 ， 结 论 表 明 专 车 市 场 的 兴起 
起 码 在 现在 对 出 租车 司机 的 收入 并 没有 什么 影响 ,但 这 与 我 们 的 感性 认识 是 相反 的 (后续 会 解释 原因 ) 。 


9.1.2 ”输出 措 标的 解析 


1.EXCEL “数据 分 析 ” 模 块 


以 案例 文件 9.1 中 的 表 为 例 ， 假 设 要 分 析 其 中 C、D、E、F 四 列 的 相关 系数 ， 那 么 ， 可 进入 “数据 分 析 ” 界 面 ， 选 择 “ 相 关系 
数 ”， 如 图 9-1 所 示 。 





所 击 图 9-1 中 的 “确定 ” ， 即 可 进入 图 9-2 所 示 的 界面 。 


帮 | 六 

碍 六 区 域 江 ] 

熙 组 万 也 : 闻 之 列 候 ) 
辐 丈 行 忆 ) 

标志 位 十 帝 一 行 (LL) 


畏 中 二] 先 I 

而 | 辆 出 区 域 思 ): 
合 产 工 作 表 组 下 ] 
全 新 工作 淤 局) 





图 9-2 


在 图 9-2 的 “输入 区 域 ” 中 框 选 要 分 析 的 数据 区 域 。 由 于 数据 是 按照 列 授 放 的 ， 因 此 分 组 方式 是 “ 逐 列 ”。 如 果 第 一 行 是 表 


头 ， 勾 选 “ 标 志 位 于 第 一 行 ”。 如 果 分 析 的 列 数 比较 少 ， 则 移 选 择 本 工作 表 输 出 ， 然 后 选择 “输出 区 域 ”， 选 定 本 工作 表 的 一 个 
位 置 即 可 ， 得 到 的 输出 结果 如 图 9-3 所 示 。 


1-6 月 全 1-6 月 整 “1-6 月 非 1-6 月 圭 
了 业 务 主 芷 让 担 
1-6 月 全 部 业务 1 


1-6 月 整 车 0. 832282 1 
1-6 月 非 整 车 ,0.777088 0. 475741 1 
1-6 月 密 担 0. 483383 -0. 05687 0.475765 





图 9-3 


图 9-3 的 输出 是 一 个 半 和 窍 阵 输 出 方式 ， 之 所 以 是 半 直 阵 ， 是 因为 电 阵 是 对 称 的 ， 没 必要 重复 输出 ， 同 时 直 阵 也 有 个 对 角 绪 ， 
对 角 线 上 的 数字 都 是 1，1 表 示 与 自身 的 相关 系数 。 


相关 系数 的 值 始 终 在 -1 和 1 之 间 ， 一 般 来 说 ， 相 关系 数 的 绝对 值 判 断 标准 见 表 9-1。 


表 9-1 pearson 相 关系 数 的 判别 


相关 系数 a (绝对 值 ) 含义 
0 高 相关 
0.5<a<=0.7 中 高 相关 
0.3<a<=0.5 中 低 相 关 
a<0.3 低 相 关 


按照 表 9-1 的 标准 看 图 9-3， 可 以 得 到 “1-6 月 全 部 业务 ”和 “1-6 月 整 车 ”的 相关 系数 是 0.83， 这 属于 高 相关 ; “1-6 月 全 部 
业务 ”和 和 “1-6 月 非 整 车 ”的 相关 系数 是 0.78， 这 同样 属于 高 相关 ; “1-6 月 全 部 业务 ”和 和 “1-6 月 零担 ”的 相关 系数 是 0.48， 这 
属于 中 低 相 天 。 如 果 要 提高 全 部 业务 的 收入 ， 需 要 优先 考虑 提高 整 车 的 收入 ， 其 次 考虑 提高 非 整 车 的 收入 ， 最 后 考虑 提高 零担 车 
的 收入 。 


案例 文件 9.1 的 例子 中 只 是 4 列 数据 的 相关 系数 ， 结 果 是 一 个 4*4 的 矩 陡 ， 如 果 考 察 比 较 多 列 数据 的 关系 ， 产 生 的 和 矩阵 会 比较 
大 ， 见 案例 文件 9.2。 


对 案例 文件 9.2 中 的 数据 进行 扫 摘 ， 会 得 到 一 个 13*13 的 和 矩 哇 ， 而 这 个 炬 阵 用 肉眼 来 观察 判断 还 是 挺 难 的 ， 这 个 时 候 条 件 格 
式 又 发 挥 作用 了 ， 例 如 要 标注 相关 系数 绝对 值 在 0.5 以 上 的 值 ， 可 用 公式 进行 设置 ， 如 图 9-4 所 示 。 


选择 规则 类 型 (8) 

> 基于 各 自 值 六 半 折 有 单元 格 的 格式 

> 只 为 电 半 以 下 站 音 的 单元 梓 太 直 梢 式 
> 公 对 排名 年 前 或 午后 的 数 填 六 直属 式 
王公 对 高 于 或 低 于 平均 值 的 数值 冯 置 格式 
> 仅 对 唯一 值 或 量具 值 芭 丰 梢 陈 

b> 使 用 作 式 硝 定 要 六 丰 格式 的 单元 格 


编辑 规则 吕 明 下) : 
为 符合 此 人 必 陈 的 值 及 真 格式 旬 ): 


AS (2) 0 .5 














图 9-4 


在 公式 中 ，B2 是 相关 系数 和 矩阵 的 第 一 个 位 置 ，B2< 1 表示 不 想 标 注 相 天 系数 是 1 的 单元 格 ， 因 为 相关 系数 是 1 表示 目 己 与 目 
身 ，ABSs 是 绝对 值 冰 数 ，AB3 (B2) >=0.5 表 示 要 标注 绝对 值 在 0.5 以 上 的 值 ， 设 置 完 成 后 得 到 的 效果 如 图 9-5 所 示 。 


性 别 
1 
0. 095473 1 
0. 053951 0. 203792 1 
0. 031943 | 0. -5 
0. 089863| 0.20344 0. 465572 1 
0. 019629| 0. 2143| 0. 207408 0. 180964 0. 233018 1 
0. 014245 -0. 06501 0. 118708 0. 117665 0. 095459| 0. 122085 1 
0. 071829| 0. 123763| 0. 375494 0. 356265 0. 433083 -0. 05517 0. 101217 1 
0. 17902| -0. 24139 -0. 07414 -0. 06837 0.054606 -0. 1062 0. 106217 0. 193601 1 
0. 225372 -0. 03805 0. 129716| 0. 128012 0. 118952 -0. 02861 0. 071038 0. 298882 2307 1 
0. 063953| 0. 236611| 0. 344493| 0. 312333 | 0. 386864| 0. 217353 0. 116816 0. 166439 -0. 05379| 0. 085487 1 


年 龄 td td SS td td 开罗 六 eAd™ 因素 9 因素 10 


0. 011115 0.14536 0. 141668. 0. 124989 0. 260782, 0.177808 0. 196972 0.1339503, 0.130457 0. 082296 1 
0. 1290691 0. 376995 0. 444359 0. 382325 0. 257899 0. 259591 -0.11172 0. 019388 0. 343262 





图 9-5 ( 附 彩 图 ) 


从 图 9-5 可 以 得 到 : 与 生病 中 高 相关 的 因素 分 别 是 因素 1、 因 素 2、 因 素 9。 


2.SPSS 的 做 法 


专业 软件 SPss 中 也 同样 可 以 做 相关 分 析 ， 见 案例 文件 9.3， 做 普通 的 pearson 相 天 时 ， 依 次 选择 “分 析 ” 一 “相关 ”一 “ 双 
变量 ”， 如 图 9-6 所 示 。 





比较 均值 (M) 

一 般 线 性 模型 (G) 
广义 线性 模型 
混合 模型 (X) 
相 天 (C) 

回 扫 (R) 

对 数 线 性 模型 (O) 





Pearson [四 | Kendall 的 tau-b(K) 站 | Spearman 


| @ 双 贡 检验 (T) 句 单 人 则 检验 (L) 











相关 分 析 的 界面 如 图 9-7 所 示 。 


在 图 9-7 中 ， 请 注意 企 相关 系数 中 勾 选 “Pearson”， 并 且 在 元 下 角 勾 选 “ 标 记 显 闭 性 相关 ” ， 最 后 得 到 的 输出 如 图 9-8 所 


个 \。 


1-6 月 天 要 车 


| 
1-6 月 至 部 业 劳 
是 首 性 【路基 | 
- Pearson 相 天 性 -.057 
还 首 性 【路 贡 | 
EE 


1-6 月 零担 Pearson 相 用 性 
是 普 性 【由 黄 ， 
站 
入. 企 .0 求 平 计 二 加 ) 上 肝 着 由 于。 





1-6 月 非 整 车 Pearson 相 天 性 
是 首 性 【中 贡 | 
由 


图 9-8 


SPSS 输 出 的 结果 看 起 来 跟 EXCEL 中 输出 的 结果 完全 一 致 ， 只 是 SPSS 作 为 专业 软件 ， 会 在 部 分 相关 系数 右上 和 角 注 明 **， 表 示 
为 在 置信 和 度 0.99 的 水 平 上 显著 相关 。 


上 一 节 介 绍 了 分 析 两 个 变量 相关 性 ， 下 面 介绍 两 个 组 变量 之 间 相 关 性 的 分 析 。 首 先 要 说 明 一 下 ， 在 SPSS 23 版 本 的 菜单 中 已 
经 实现 了 典型 相关 分 析 ， 只 要 轻 点 鼠标 束 能 方便 地 做 分 析 ， 但 是 考虑 到 本 书 统一 采用 SPSS 19 版 本 ， 因 此 还 是 采用 一 个 比较 繁复 
的 操作 步骤 。 


9.2.1 “操作 步骤 


第 一 步 ， 拷 由 .sps 文 件 到 SPSS 安 装 目 录 。 


在 案例 文件 夹 “9.4 上 典型 相关 分 析 ” 中 找到 文件 Canonical correlation.sps， 找 由 到 SPSS 的 安 六 目录 下 ， 如 果 找 不 到 SPSS 的 
安装 目录 ， 可 以 在 桌面 上 找到 SPSs 的 启动 图 标 ， 点 击 鼠 标 右 键 ， 得 到 图 9-9。 


还 原 以 前 的 版 本 (V) 


祭 (D) 
重 荫 名 (M) 


i- 
3 





在 “属性 ”界面 中 可 以 找到 SPSS 文 件 的 启动 位 置 ， 如 图 9-10 所 示 。 


让 IBM SPSS Statistics 19 历 性 |_ 


快捷 方式 以 前 的 版 本 


L 





目标 类 型 : 应 用 程序 
目标 位 置 : 。 19 


目标 LT 1 [xBB “IBEW SESS "Statistics"“ lstats. exe” 


起 始 售 置 加 1 "Ci: hpProgram Files [xBBI\IBN'"SPSS"Statis 


EM 站 atlstlcs 19 















































































































































快捷 键 让 1]: 无 
运行 方式 中 ) 
苗 汪 站) IHI SPSS Statistics 19 


图 9-10 


图 9-10 框 线 里 面 的 位 置 就 是 SPSS 的 启动 文件 放置 的 位 置 ， 请 注意 要 拷贝 的 位 置 是 : C: \Program 
Files (x86) \IBM\SPSS\Statistics\19\Samples\English, 


第 二 步 ， 打 开 要 分 析 的 .sav 文 件 。 
第 三 步 ， 新 建 一 个 语法 文件 ， 并 且 执 行 。 


新 建 语法 文件 时 ， 依 次 打开 “文件 ”一 “新 建 ” 一 “语法 ”， 如 图 9-11 所 示 。 


交 件 (F) ”六 辑 (E) ”视图 V) 数据 {D) 转换 ([T) “分析 (内 ) 
国 数据 ID) 


匠 津 (NM) 


$1 于 {OD) | 名 语法 (9) 





图 9-11 
选择 “语法 ”之 后 ， 得 到 的 界面 如 图 9-12 所 示 。 


文件 (EF) ”编辑 (E) ”视图 (V) ”数据 (D) 转换 [T) ”分析 (A) ”直销 (M) 图形 (G) ”实用 程序 (U) 运行 (R) 工具 (S) 窗口 (W) 帮助 


ETT TNA EYEE 
LT 了 本 一 aa 


信里 是 要 瑟 入 代码 的 地 方 














图 9-12 


SP3s 广 件 是 ?Pss 中 的 语法 文件 ， 一 般 情 况 下 ， 读 者 会 癌 得 这 个 文件 比较 陌生 ， 我 们 已 经 把 固定 的 语法 放 在 “9.4 典 型 相关 分 
析 ” 的 “运行 代码 .txt” 中 (如 图 9-13 所 示 ) ， 现 在 只 要 把 里 面 的 代码 拷贝 到 图 9-12 所 示 的 位 置 即 可 。 





图 9-13 


对 于 图 9-13， 要 注意 的 是 ， 要 检查 上 图 中 的 文件 路 径 是 否 跟 你 的 电脑 上 的 SPSS 的 安 六 路 径 相 符 ， 同 时 也 要 仔细 考核 下 面 的 


两 个 组 的 数组 ， 第 一 个 组 是 a1 a2 a3 a4 a5 a6 a7， 第 二 个 组 是 b1 b2 b3 b4 b5， 确 认 无 误 后 ， 框 选 全 部 代码 ， 点 击 图 标 中 绿色 
的 箭头 (如 图 9-14 所 示 ) 。 





图 9-14 


9.2.2 ”结果 解读 


典型 相关 分 析 的 输出 比较 复杂 ， 以 下 会 逐一 解读 。 先 来 看 图 9-15。 


Correlations for Set—] 
al a2 a3 a4  a5 ab ar 

al 1.0000 .2701 .1643 -.028e6 .2463 .0/22 -.l1664 
a2 .2701 1.0000 .2694 .0406 -.067/:0 .3463 .2709 
a3 ,1643 .2694 1.0000 .3190 -.242/ .1931 -.01/6 
ad -.0286 .0406 ,3190 1.0000 -.0370 .0524 ,2035 
ao5 .2463 -.067/0 -.2427 -.03710 1.0000 .0517 .3231 
ab .0722 .3463 .1931 .0524 .0517 1.0000 .2813 

ay7 -,1664 .2709 -.0176 .2035 ,3231 .2813 1,0000 


Correlations for Set—2 

bl b2 b3 bd b5 
bl 1.0000 -.4429 -.264/ -4629 .D077i 
b2 -.4429 1.0000 .49589 ,60Bb/ -.4/44 
b3 -.264/ .4989 1.0000 .3562 -.5285 
b4 -4629 .6067 .3562 1.,0000 -,43693 
bs O0777 -4744 -5285 -.4369 1.0000 


图 9-15 


首先 要 看 一 下 图 9-15 中 第 一 个 组 和 第 二 个 组 内 部 变量 之 间 的 相关 系数 ， 由 于 我 们 主要 考虑 组 和 组 之 间 的 相关 系数 ， 因 此 这 
两 个 组 内 部 的 变量 之 间 的 相关 系数 ， 一 般 只 是 观察 一 下 ， 不 多 做 深究 。 


输出 的 典型 相关 系数 如 图 9-16 所 示 。 


Canonical Correlations 
] .5465 

07 

.b465 


2 
4 .351 
2 2230 





图 9-16 
图 9-17 展 示 的 是 两 个 组 之 间 关 系 显著 性 的 检验 。 


从 图 9-17 可 以 看 出 ， 两 组 变量 的 第 一 个 和 第 二 个 显著 性 检验 值 是 0 和 0.007， 是 小 于 一 般 的 显著 性 标准 0.05 的 。 根 据 图 9-18 
可 以 从 第 一 组 标准 化 的 相关 系数 和 矩阵 中 获得 两 个 方程 。 


Test that remaining Correlations are zero: 
Wilk's Chi-sQ DF Sig. 
‘065 83.194 35.000 .000 
233 44.440 24.000 .007 


‘46b 23.302 15.,000 .0075 
503 bbbe 5.000 ,211 
‘dlb 2.6/3 3UUU .445 





图 9-17 


standardlzed Canonical Coefflclents for Set—1 
| 2 3 4 D 
475 ,115 ,391 -.452 -.462 
,190 -565 -714 .307 .489 
'634 ,048 .288 ,321 -,276 


,0U40 0580 -400 -.906 .422 
233 113 -6b8l1 .459 .233 
‘ll .148 .425 .141] .649 
‘038 -.394 .025 -.]03 -1.029 





图 9-18 
得 到 的 方程 组 为 : 
Li 三 0.473ali+0.19a2+0.034a3+0.04a4+0.233as+0.117c6+0.038a7 
U, 一 0.11 Sai—0.565a+0.048as+0.08ast+0.773as+0. 148ac—0.394a7 


同样 也 可 以 从 第 二 组 (如 图 9-19 所 示 ) 获得 两 个 方程 。 


otaridardlzed Canonical Coeftfticlents Tor 六 站 一世 
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b4 -Vb8 -034 -org .340 1.158] 
bs -372 -B96 -649 .569 一 24 





图 9-19 
得 到 的 方程 为 : 


I —0.505p1+0.209b,+0.365b;3-0.068b4s-0.372b;s 
=-0.659b1-1.115b;—0.262b3-—0.034b4s—0.896b; 


看 到 以 上 的 结论 ， 估 计 很 多 读者 都 慌 圈 了 ， 这 到 底 是 什么 意思 ? 要 看 懂 上 面 的 结论 ， 首 先 要 知道 什么 是 “ 降 维 ”。 例 如 对 第 
一 组 变量 而 言 ， 思 共有 a1、a2、a3、a4、a5、a6、a7 这 7 个 变量 ,事实 上 ， 后 来 形成 的 U1 和 U2 这 两 个 变量 ， 残 是 这 7 个 变量 的 
压缩 版 。 举 个 例子 ， 双 胞 胎 在 生活 中 还 是 比较 多 的 ， 三 胞 胎 和 四 胞 胎 束 比较 少见 了 ， 如 果 哪 天 我 们 见 到 了 一 个 四 胞 胎 ， 而 且 相 貌 
非 钊 相似 ， 如 果 要 刻画 这 个 四 胞 胎 长 得 号 么 桩 ， 是 不 是 只 要 摘 述 其 中 一 个 人 的 长 相 融 够 了 ?答案 是 差不多 的 。 那 么 ， 是 否 在 四 胞 
胎 中 随便 找 一 个 人 ， 束 可 以 完全 代表 这 个 四 胞 胎 呢 ? 黑 格 尔 说 过 ， 世 界 上 没有 两 片 完 全 相同 的 树叶 ， 玩 不 要 说 两 个 人 了 ， 因 此 却 
全 代表 是 不 可 能 的 ， 也 残 是 说 找 了 四 胞 胎 中 的 一 个 人 ， 他 的 相貌 可 以 解释 四 胞 胎 中 的 94%， 这 束 是 解释 度 或 者 页 献 度 。 


明日 了 以 上 讲 的 “ 降 维 ”的 原理 后 ， 就 知道 a1、a2、a3、a4、a5、a6、a7 被 压缩 到 了 U1、U2 这 两 个 维度 上 ， 第 二 个 组 
b1、b2、b3、b4、bs 被 压缩 到 了 V1、V2 这 两 个 维度 上 ， 而 针对 两 个 组 变量 相关 性 的 讨论 也 被 转换 成 U1、U2 和 V1、V2 关 系 的 讨 
论 了 。 


9.3 决 案例 


要 用 一 到 两 句 话 人 简单 地 讲 清楚 决策 树 是 什么 ,确实 不 容易 。 在 讲 决 策 树 之 前 ， 首 先 讲 一 下 什么 是 决策 : 要 有 决策 ， 自 先 要 有 
选择 ， 我 们 这 代 人 在 读书 这 个 问题 上 是 不 需要 决策 的 ， 因 为 大 家 都 完 得 到 年 龄 去 读书 是 天 经 地 义 的 ， 读 书 就 是 为 了 考 大 学 ， 然 后 
找 个 好 工作 。 但 是 现在 的 小 孩子 在 读书 这 个 问题 上 残 面 临 决策 了 ， 或 者 说 孩子 的 父母 束 面 临 决策 了 ， 因 为 孩子 现在 有 去 国外 读书 
和 在 国内 参加 高 考 等 多 种 选择 ， 如 果 去 国外 读书 ， 也 面临 着 在 哪个 阶段 (比如 初中 、 高 中 、 大 学 等 ) 送出 去 更 合适 的 问题 。 


存在 多 个 选择 时 ， 我 们 除了 需要 决策 ， 还 会 存在 决策 的 顺序 问题 。 以 小 两 口 买房 为 例 ， 要 考虑 的 因素 很 多 : 例如 ， 是 买 市 区 
交通 生活 便利 但 是 单价 高 的 小 房子 或 老 房子 ， 还 是 买 郊区 生活 交通 不 便 、 但 面积 较 大 的 新 房子 。 在 进行 决策 时 会 考虑 单价 、 交 


通 、 面 积 、 新 旧 、 是 否 学 区 房 等 多 种 因素 ， 那 么 小 两 口 到 底 要 把 哪个 因素 放 在 首要 考虑 的 位 置 上 呢 ? 有 的 人 认为 结婚 不 久 束 会 有 
孩子 ， 应 该 把 市 区 的 学 区 房 放 在 第 一 位 ; 有 的 人 则 非常 在 乎 房屋 的 面积 ， 这 样 的 人 一 般 会 选择 郊区 买房 ， 有 的 人 则 看 重 交 通 ， 这 
样 的 一 般 会 选择 轨道 交通 沿线 的 房子 。 


类 似 的 例子 还 有 很 多 很 多 ， 忆 结 一 下 决策 的 过 程 : 
` 决策 对 象 是 有 多 种 选择 的 。 


` 决策 的 依据 是 根据 重要 程度 来 划分 的 ， 例 如 一 个 富裕 的 消费 者 在 购买 食品 时 首先 考虑 的 是 食品 的 质量 和 安全 ， 然 后 才 考 卡 
价格 。 


在 实际 的 操作 中 ， 决 策 树 往往 是 以 一 棵 “倒立 ”的 树 的 方式 出 现 的， 并 且 它 的 分 析 结 果 通 剃 是 分 层 出 现 的 ， 在 树 形 结构 中 ， 
将 先 考虑 的 因素 放 在 离 根部 较 近 的 地 方 ， 而 后 考虑 的 因素 放 在 离 树 根 较 远 的 地 方 。 


9.3.1 ”什么 时 候 需 要 用 决策 树 


在 具体 讲述 决策 树 的 操作 之 前 ， 再 来 看 一 下 决策 树 算法 的 应 用 场景 。 这 里 提 到 的 问题 其 实在 数据 分 析 的 算法 模型 中 具有 普通 
性 : 在 数据 分 析 中 有 很 多 算法 模型 (例如 我 们 后 面 要 讲 到 的 回归 ， 而 且 回 归 用 得 非常 多 ) ， 那 什么 时 候 用 决策 树 呢 ? 


要 讲 清楚 这 个 问题 ， 还 要 再 说 一 下 “连续 数据 ”和 “离散 数据 ”的 概念 ， 如 同 2.2.1 节 中 所 况 ， 连 续 量 束 是 在 一 个 区 间 内 可 
以 连续 变化 的 量 ， 而 离散 量 只 能 取 少 数 几 个 跳跃 的 值 ， 那 么 第 一 个 应 用 场景 出 现 了 ， 融 是 如 果 目 变量 既 有 连续 变量 也 有 离散 变 
， 这 时 来 用 决策 树 做 分 析 ， 几 乎 是 唯一 可 行 的 方法 。 


wl 


第 二 个 应 用 场景 是 考虑 连续 型 变量 的 分 割 问题 ， 例 如 对 于 化 妆 品 的 消费 ， 想 了 解 受 女性 年 龄 的 影响 是 怎样 的 ， 例 如 我 们 “ 猜 
想 ” 女 性 的 年 龄 大 于 某 个 特定 值 之 后 ， 对 于 某 产 品 购 买 的 兴趣 会 大 大 下 降 ， 这 种 场景 下 ， 决 策 树 也 显得 很 有 用 。 


9.3.2 ” 决 宁 树 的 操作 时 中 标 解 释 


可 及 用 XLSTAT 数 据 分 析 插 件 来 做 决策 树 分 析 。XLSTAT 是 一 蒜 优 秀 的 、 小 型 的 、 与 EXCEL 环 境 可 以 无 颖 整合 的 数据 分 析 插 
件 ， 对 于 一 般 的 非 大 数据 的 分 析 ，XLSTAT 显 得 比较 合适 ， 它 在 国内 也 占据 了 一 定 的 市 场 份额 ， 但 是 XLSTAT 在 国内 没有 合适 的 简 
体 中 文 版 本 ， 对 于 部 分 用 户 来 说 可 能 有 一 定 的 英文 语言 要 求 。 


自 先 看 一 下 XLSTAT 的 界面 ， 如 图 9-20 所 示 。 
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图 9-20 


从 图 9-20 可 以 看 出 ，XLSTAT 实 际 上 有 一 个 内 诅 在 EXCEL 中 的 界面 ， 这 和 一 般 的 统计 分 析 软 件 都 不 一 样 ， 一 般 的 统计 分 析 软 


件 都 是 独立 的 软件 。 


以 案例 文件 9.5 中 的 数据 进行 说 明 ， 假 设 研究 对 象 是 “是 否 购买 ”， 我 们 要 探索 年 龄 、 肤 色 、 是 否 是 上 海 人 这 几 个 因素 对 
于 “是 否 购买 ”的 影响 。XLSTAT 中 决策 树 的 操作 步骤 如 下 。 


第 一 步 ， 进 入 决策 树 界 面 ， 如 图 9-21 所 示 。 
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图 9-21 


决策 树 的 学 名 叫 “Classification and regression trees”， 翻 译 成 中 文 叫 “ 分 类 及 回归 树 ”， 扣 击 该 名 称 后 ， 进 入 如 图 9- 
22 所 示 的 界面 。 
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图 9-22 


二 


在 图 9-22 中 ,在 “Y/Dependent variables” 中 选择 E 列 ， 在 其 下 的 “Data type” 中 有 两 个 选择 ， 一 个 是 Quantitative， 意 
思 是 “连续 的 ”、 “定量 的 ”; 还 有 一 个 是 Qualitative， 意 思 是 “离散 的 ”、“ 定 性 的 ”， 由 于 E 列 是 文本 ， 因 此 选择 


Qualitative。 
自 变量 的 选择 有 两 种 ， 一 是 Quantitative， 就 是 定量 的 ， 选 择 B 列 ; 还 有 Qualitative， 融 是 定性 的 、 文 本 ， 选 择 C 列 和 D 
列 。 


其 他 都 及 用 默认 设置 ， 点 击 “OK” 得 到 图 9-23。 
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图 。9-23 
这 一 步 是 核对 的 环节 ， 建 议 急 学 XLSTAT 的 人 最 好 人 在 这 里 多 核对 一 下 ， 因 为 在 选择 数据 的 时 候 往往 会 出 销 。 
第 二 步 ，XLSTAT 输 出 的 解读 ， 如 图 9-24 所 示 。 


Methad: GHAILD 

Neasure: Pearson 

Naximum tree depth: 5 
Sienificance 1Level (%): 5 


Split threshold i%): 5 
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图 9-24 


图 9-24 中 的 表示 决策 树 使 用 的 模型 是 CHAID，CHAID 是 决策 树 中 一 个 奢 名 的 算法 。Pearson 表 示 在 算法 分 析 中 用 的 是 
Pearson 算 法 。Maximum tree depth : 5 表示 决策 树 的 高 度 最 多 是 5 层 。Significance level (%) : 5 表示 置信 度 是 95%。 其 他 
的 参数 可 以 忽略 不 计 。 


下 面 是 主要 数据 的 一 些 摘 述 统计 ， 如 图 9-25 所 示 。 
例如 在 样本 数据 中 ，“ 买 ”的 客户 比重 为 61.1%， 而 “不 买 ”的 客户 的 比重 为 38.9%。 其 他 的 摘 述 统计 不 再 区 还。 


实 观 察 决策 树 最 直观 的 方法 束 是 看 那 棵 树 是 怎样 的 。 决 策 树 上 的 legend 如 图 9-26 所 示 。 在 决策 树 中 ，“ 买 ”用 红 柱 子 表 
示 ，“ 不 买 ” 用 监 柱子 表示 ， 图 9-27 就 是 我 们 讲 了 很 久 的 决策 树 。 
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图 9-25 





图 9-20 


Classification tree: 


Node: 5 
Size: 15 
%: 41.7 





图 9-27 (了 附 彩 图 ) 
下 面 对 决 策 树 刁 点 的 几 个 要 素 进行 解释 ， 先 看 图 9-28。 


图 9-28 展 示 的 是 决策 树 的 第 一 个 节点 ，Node: 1 表示 这 是 决策 树 的 第 一 个 匡 感 ，size: 36 表 示 这 个 节操 包括 36 行 数据 ( 实 
际 上 因为 是 第 一 个 节 扣 ， 所 有 的 数据 也 就 是 36 行 数据 ) ，%: 100 表 示 在 全 部 数据 中 的 占 比 是 100%。Purity (%) : 61.1 表 示 此 
节操 的 纯度 是 61.1%。 


Node: 1 
SIZeE: 30 
%o: 100 
Purity(%): 61.1 





图 9-28 


纯度 这 个 概念 在 理解 决策 树 的 规则 方面 显得 非常 重要 ， 以 上 书 点 的 纯度 是 如 此 计算 的 : 


买 的 次 数 2 


绩 度 二 天 的 次 数 -22 -511g 
入 一 买 的 次 数 + 不 买 的 次 数 ， 22+14 | 


纯度 这 个 概念 如 何 理解 呢 ” 实际 上 纯度 越 裔 ， 束 表明 这 个 证 点 越 可 能 成 为 一 个 规划 。 例 如， 我 们 调查 一 个 人 群 对 于 某 个 政策 
的 态度 ,假设 人 群 有 1000 人 ， 对 于 政策 的 态度 有 “赞成 ”、“ 中 立 ”、“ 反 对 ”三 种 ， 如 果 赞成 、 中 立 、 反 对 的 人 分 别 是 400、 
400、200， 那 么 此 时 的 纯度 为 : 


赞成 的 人 数 400 


纯 厦 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 40% 
”赞成 的 人 数 十 中 立 的 人 数 + 反 对 的 人 数 ”400+400+200 
可 能 有 人 会 问 ，40% 的 纯度 算 不 算 一 个 规则 呢 ? 不 算 ! 


再 进一步 ， 如 果 在 这 1000 个 人 群 找到 一 个 小 的 人 群 ， 这 个 人 群 只 有 80 个 人 ， 其 中 赞成 、 中 立 、 反 对 的 人 分 别 是 5、67、8， 
则 纯度 为 : 


立 的 人 数 67 

纯度 二 vy 的 A 数  - 二 一 一 一 一 二 83.75% 

竺 成 的 人 数 十 中 立 的 人 数 十 反对 的 人 数 ”5+67+8 
83.75% 的 纯度 够 高 了 ， 这 时 有 足够 的 理由 说 我 们 找到 了 一 个 人 群 ， 这 个 人 群 对 该 政策 的 态度 基本 是 “中 立 ” 的 ， 


再 回 过 头 来 重新 理解 一 下 什么 是 规则 ， 规 则 殊 是 一 个 明确 的 结论 ， 例 如 “在 海边 找到 一 堆 贝 过， 有 日 色 的 、 黑 色 的 、 绿 色 
的 ”， 这 融 不 是 一 个 结论 ， 因 为 它 不 是 确切 的 ; 而 “在 海边 找到 一 堆 贝壳 ， 贝 壳 是 日 色 的 ” ， 这 残 是 个 结论 了 。 


现在 来 看 树 的 左 半 部 分 ， 如 图 9-29 所 示 。 


Node: 2 


Size: 20 
%0: $5.6 
Purity(%): 65 





微 黑 微 日 较 日 


Node: 4 


Node: $ 
91Z6: 5 Size: 15 
%: 13.9 0%0: 41.7 





Purity(%): 100 





Purity(%): 86.7 


图 9-29 


图 9-29 上 半 部 分 展示 的 是 书 点 2， 纯 度 为 65%， 这 显然 不 是 一 个 规则 ， 从 红 柱 子 和 蓝 柱 子 的 分 布 来 看 ， 也 显然 不 是 。 再 看 左 
下 角 的 节点 4， 纯 度 为 100%， 这 显然 是 个 结论 。 册 看 右 下 角 的 节点 5， 纯 度 为 86.7%， 这 也 是 一 个 结论 。 


最 后 用 文字 的 形式 整理 一 下 决策 树 的 结论 : 
` 非 上 海 人 中 ， 皮 肤 黑 的 都 会 购买 。 
` 非 上 海 人 中 ， 皮 肤 不 黑 的 基本 都 不 会 购买 。 


上 海 人 ， 基 本 都 购买 了 。 


冰 


第 10 章 


分 类 不 仅 是 数据 分 析 和 挖掘 的 重要 模型 和 算法 ， 实 际 上 也 是 人 类 思维 的 重要 方法 之 一 。 人 们 在 考虑 很 多 问题 时 都 会 采用 分 门 
别 类 的 方法 ， 例 如 考虑 中 国 城市 的 友 展 ， 把 城市 分 为 乐 、 中 、 西 或 者 一 、 二 、 三 、 四 续 城 市 ; 考虑 客户 时 ， 将 客户 分 为 大 客户 、 
中 小 客户 ; 考虑 土壤 标本 时 ， 将 土壤 分 为 酸性 土壤 和 碱 性 土壤 等 。 


下 是 有 了 分 类 ， 才 使 得 我 们 的 思路 更 加 清晰 ， 才 能 在 分 类 的 基础 上 有 的 放 矢 地 及 用 各 种 方法 和 策略 。 


10.1 “多 维度 数据 的 分 类 怎么 办 


在 正式 开讲 聚 类 之 前 ， 再 提 一 下 维度 的 概念 ， 维 度 融 是 看 事情 的 视角 ， 或 者 说 列 。 例 如 我 们 看 后， 车 的 A、B、 (级别 残 是 维 
度 ， 芋 的 排 量 也 是 一 个 维度 ， 当 然 ， 还 有 和 芋 的 长 度 、 宽 度 、 重 量 等 维度 。 在 给 数据 分 类 的 时 候 ， 通 弟 是 按照 维度 来 划分 的 ， 例 如 
从 车 子 排 量 的 角度 来 划分 ,或 者 从 和 车子 轴 距 的 角度 来 划分 。 


10.1.1 ” 低 维 度数 据 的 分 类 万 法 


低 维 度数 据 相对 来 襄 比 较 简 单 ， 比 如 ， 行 李 箱 的 尺寸 ， 经 单 出 差 坐 习 机 的 人 都 知道 ， 登 机 箱 的 尺寸 是 20， 那 么 实际 上 根据 
行李 箱 的 尺寸 ， 大 致 融 可 以 判断 出 用 户 类 型 。 例 如 20 十 以 下 可 以 作为 登 机 箱 使 用 ， 比 较 适 合 于 年 轻 人 ， 他 们 出 行 携 市 的 忒 西 不 
多 ; 24 十 是 标准 尺 十 的 旅行 箱 ， 可 以 半 比 较 多 的 乐 西 ;28 十 和 32 填 均 比较 适合 长 时 间 和 国际 旅行 。 


以 上 介绍 的 是 一 个 维度 的 分 类 万 法 ， 下 面 再 看 一 个 二 维 的 例子 。 


家 庭 轿车 通 弟 涉及 A、B、C 等 档次 ， 那 么 这 些 汽车 的 档次 是 如 何 划 分 的 呢 ? 根据 作者 与 车 三 学 员 的 交流 ， 主 要 是 根据 轴 距 和 
排 量 进行 划分 的 ， 轴 距 是 汽车 前 后 轮 中 点 之 间 的 距离 ， 表 10-1 是 常见 的 根据 轴 距 和 排 量 进行 车 等 级 划分 的 分 级 表 。 


表 10-1 


看 到 这 里 ， 可 能 有 读者 会 部 得 这 种 一 个 维度 或 两 个 维 大 的 分 类 ， 相 当 简 单 ， 没 有 什么 好 讲 的 。 但 实际 上 ， 即 使 是 看 似 简单 的 
基于 一 维 指标 的 分 类 ， 都 没 那 么 简单 。 


请 看 以 下 的 例子 : 一 个 医学 方面 的 指标 ， 记 为 A， 它 的 值 在 0 ~ 13370， 但 是 它 的 正常 范围 是 0 ~ 40， 也 就 是 说 ， 只 要 A 超过 
40， 医 生 残 会 怀疑 这 个 患者 得 了 某 种 癌症 ， 现 在 问题 来 了 : 


这 样 的 指标 如 何 分 类 呢 ? 如 果 按照 现行 的 标准 ， 残 很 简 蛙 ， 束 是 40 作 为 分 界线 ，40 以 下 正常 ，40 以 上 不 正常 。 但 是 在 实际 
数据 中 ，40 ~ 13370 这 个 指标 段 实 在 六 大 了 ， 仅 仅 按 照 40 来 划分 是 不 是 太 粗 略 了 ” 


在 实际 的 处 理 中 ， 医 生 会 结合 实际 的 经 验 进 行 一 些 判 断 ， 因 为 在 临床 医学 中 ,指标 是 供 医 生 参 考 用 的 ， 也 束 是 说 ， 指 标 不 是 
绝对 的 ， 比 如 ， 对 于 上 面 所 述 的 指标 A， 低 于 40 不 代表 患者 一 定 是 没事 的 (但 是 没事 的 概率 是 比较 高 的 ) ， 指 标高 于 40 也 并 不 代 
表 一 定 是 癌症 (但 是 癌症 的 概率 是 比较 高 的 ) ， 因 此 如 果 只 按照 指标 的 粗略 分 类 来 判断 病情 ， 很 可 能 会 产生 误 判 。 


因此 一 个 比较 科学 合理 的 方法 是 ， 对 于 指标 A 的 变化 范围 进行 扫描 统计 ， 精 确 统计 各 个 分 段 的 患者 的 得 癌 比 例 ， 然 后 逐一 分 
析 ， 从 而 得 到 一 个 比较 合理 的 分 段 标准 。 


10.1.2 高 维度 数据 的 分 类 需求 


除了 以 上 低 维 度 的 分 类 需求 之 外 ， 还 存在 高 维度 指标 的 分 类 需求 ， 例 如 ， 对 土壤 和 水 质 进 行 分 析 ， 土 壤 标 本 的 指标 可 以 有 
20 多 种 ， 水 质 的 指标 也 可 以 有 10 多 种 。 又 例如 做 消费 者 调查 ,消费 者 有 年 龄 、 性 别 、 学 历 、 消 费 场 所 、 消 费 量 等 多 个 指标 。 家 
寿 轿 后 有 轴 距 、 排 量 、 百 公里 油耗 、 天 窗 (无 、 有 、 全 景 ) 、 门 数 (1、2、3) 等 多 个 指标 。 


针对 多 个 指标 进行 分 类 ， 丈 是 要 讲 的 聚 类 ,英文 叫 clustering。 


这 里 以 案例 文件 10.1 中 的 数据 为 例 ， 该 例 数 据 来 自 一 个 啤酒 饮用 量 市 场 调查 ， 共 50 条 数据 ， 也 束 是 说 共有 50 个 被 访 者 参与 
了 调研 ， 在 被 访 者 的 属性 信息 中 有 年 龄 、 性 别 、 学 历 等 信息 ， 在 喝 啤 酒 的 信息 中 有 了 啤酒 价格 、 消 费 场 所 、 周 饮用 量 等 信息 ， 这 6 
个 措 标 构成 了 判断 消费 者 的 重要 信息 。 


10.1.3” 单 用 的 聚 关 操作 介绍 


以 下 以 XLSTAT、SPSS 为 例 ， 介 绍 聚 类 的 操作 以 及 结果 的 解读 。 


1.XLSTAT 


如 图 10-1 所 示 ， 在 XLSTAT 的 “Analyzing data” 模 块 中 ， 有 K-means、AHC、Univariate clustering 等 三 种 聚 类 算法 ， 由 
于 本 书 的 重要 原则 之 一 是 不 涉及 复杂 艰深 的 统计 理论 ， 因 此 这 里 只 简单 介绍 这 三 种 算法 的 应 用 场景 : 


. 区 -means: 适用 于 完 连续 型 数据 的 聚 类 。 


公式 数据 审阅 视图 载 也 XLSTAT 


tests 7 





sl1s 


i analysls 


Principal Component Analysis (PCA) 

DiscrIimlnant Analysis (DA) 6G TT 
Correspondence Analysis (CA) 

Multiple Correspondence Analysis (MCA) 


Multidimensional Scaling (MDS) 


k-means clustering 


| Agglomerative hierarchical clustering (AHO) 





Univariate clustering 


AHC: 是 一 个 对 于 数据 特征 容 丸 度 比 较 高 的 聚 类 算法 ， 也 就 是 说 无 论 变 量 是 连续 型 还 是 离散 型 都 适用 。 
Univariate clustering: 单 变 量 聚 类 ， 适 用 于 一 个 变量 的 内 部 聚 类 ， 这 个 算法 不 是 太 常 用 。 


我 在 培训 的 时 候 常 跟 学 员 说 ， 如 果 数 据 量 不 是 很 大 〈 例 如 几 万 行 以 下 的 数据 量 ) ， 一 般 使 用 AHC 算 法 残 可 以 了 ， 这 样 残 没 
必要 费心 去 考虑 数据 的 连续 性 和 离散 情况 了 。 图 10-2 束 是 AHC 算 法 的 设置 界面 。 


Agglomerative hierarchical clustenng (AHC) 


| General | options | Missing data | Outputs | Charts | 
Observations/variables table: 人 Range: 
轮 类 分 析 !$6$1:$6$51 (5 sheet 
Data format: 
fe Observations/variables table 
f ”Proximity matrix 





Proximity type: 
{f ”Similarities {* Dissimilarities 
Eudidean distance 





图 10-2 
在 图 10-2 中 ， 在 “Observations/variables table” 下 面 ， 选 择 B 列 和 G 列 之 间 的 所 有 列 ， 也 融 是 聚 类 要 依据 的 6 列 数据 ， 然 


后 点 击 “Options”， 得 到 相应 的 标签 页 ， 如 图 10-3 所 示 。 


Agglomerative hierarchical clustenng (AHC) 


General Options | Missing data | Outputs | Charts | 
f* Cluster rows 
{~ Cluster columns 


[ Center f ”Rows 
Lj Reduce 人 LOIUmims 


lv Truncation: 
{~ Automatic 
{* Number of dasses: 
f{f ”Level: 












































在 图 10-3 中 的 红 框 沁 围 内 ， 要 标明 聚 类 形成 的 分 类 的 选项 ， 如 果 选 择 Automatic， 则 表明 让 模型 自动 选择 生成 了 分 类 个 
数 ， 也 就 是 说 应 该 分 为 几 类 就 生成 几 类 。 当 然 ， 也 可 以 在 Number of classes 后 面 手 工 输入 要 分 类 的 个 数 ， 让 模型 按照 既定 的 分 


类 个 数 来 进行 分 类 。 


全 


天 于 手工 输入 分 类 个 数 的 问题 ， 我 跟 拱 训 的 学 员 有 过 比较 有 趣 的 讨论 ， 学 员 问 我 一 般 指 定 几 个 群 比较 合适 ， 我 告诉 他 一 般 是 
3~ 5 个 ， 学 员 问 原因， 我 说 分 类 个 数 多 了 ， 即 使 分 出 来 ， 目 己 也 晕 了 。 


说 到 分 类 的 个 数 ， 不 由 得 使 我 想起 当年 中 国 移动 对 用 尸 进行 分 类 的 案例 ， 中 国 移动 集团 公司 曾经 从 各 个 省 分 公司 抽取 了 用 户 
打 电 话 的 消费 数据 ， 数 据 的 维度 包括 话费 、 呼 出 电话 次 数 、 接 听 电 话 次 数 、 短 信条 数 、 工 作 日 电话 次 数 、 周 末 电 话 次 数 、 日 天 电 
话 次 数 、 晚 上 电话 次 数 、IVR 次 数 .….. 然 后 委托 一 家 著名 的 咨询 公司 对 用 尸 进行 分 类 ， 结 果 访 咨询 公司 通过 严谨 的 分 析 ， 把 中 国 
移动 的 用 尸 分 成 了 9 个 类 。 当 时 中 移动 束 说 9 个 类 实在 太 多 了 ， 不 要 说 消费 者 记 不 住 搞 不 明 昌 ， 哪 怕 是 移动 的 人 也 未 必 能 轻松 地 
记 清 楚 ， 因 此 计 和 咨询 公司 压缩 到 3 ~ 4 个 。 该 咨询 公司 进行 了 调整 ， 把 9 个 类 压缩 到 3 个 类 ， 这 丈 是 闭 名 的 全 球 通 、 神 州 行 、 动 感 
地 市 。 


现在 回 到 AHC 算 法 的 设置 上 ,在 “Options” 中 选 好 类 的 个 数 后 ， 操 击 “OK”， 可 得 到 图 10-4 所 示 的 界面 。 


这 里 要 求 确认 参与 聚 类 的 行 数 和 列 数 ， 点 击 “Continue” ， 就 能 够 得 到 聚 类 的 输出 ， 解 析 如 图 10-5 所 示 。 


xLSTAT - Selections 


1 List of selections 
和 Gi 


| De not show this message anymore 


me | | 


图 10-4 





Luster rows 
Dssimilanty: Cucldean distance 
Agglomeration method: Wards method 


enter: No 


Heduce: No 
Truncation: number of classes 三 二 





图 10-5 


其 中 ，Cluster rows 表 明 参 与 聚 类 的 数据 是 以 行 的 方式 出 现 的 ，Dissimilarity: Euclidean distance 表 示 模 型 中 用 的 是 欧 几 
里 得 距离 ， 模 型 采用 的 是 Ward 模 型 ，number of classes=4 表 示 模 型 会 分 为 4 个 类 


模型 输出 的 内 容 很 多 ， 或 许 这 是 国外 软件 的 一 个 特点 ， 输 出 比较 喝 呆 ， 有 很 多 内 容 对 于 非 专 业 用 己 来 说 是 没 必 要 的 ， 其 实 只 
需要 关注 以 下 的 内 容 即 可 ， 如 图 10-6 所 示 。 


Lentral DOblects:- 


Class 性 到 | 学 历 啤酒 居 ”消费 场所 ”和 周 忆 用 尘 


1 (Vbs15) 30.000 2.000 4000 300.000 
2 (VQbsd3) 36.000 3.000 2000 3000.000 
3 (OQbsd4) 32.000 2.000 2000 1200.000 

18.000 1.000 1.000 S600.000 





图 10-0 


可 以 看 到 ， 在 “Central objects” 下 面 的 输出 中 ， 模 型 将 参与 问卷 调查 的 50 个 用 户 分 成 了 4 个 类 ， 表 格 中 的 指标 都 是 平均 
数 ， 为 了 方便 大 家 理解 分 类 的 情况 ， 看 一 下 原始 数据 中 性 别 、 年 龄 等 信息 的 取 值 ， 如 图 10-7 所 示 。 
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图 10-7 


继续 看 所 分 的 4 个 类 : 第 一 个 类 ， 性 别 的 平均 值 是 2， 由 于 1 表示 男 2 表 示 女 ， 平 均值 是 2 表示 这 个 类 全 部 是 女性 ， 年 龄 的 平均 
值 是 30， 学 历 的 平均 值 是 2， 表 示 学 历 的 平均 值 是 大 专 ， 啤 酒 价格 平均 值 是 5， 表 示 喝 的 啤酒 最 贵 ， 消 费 场 所 平均 值 是 4， 表 示 基 
本 在 高 级 酒吧 喝酒 ， 但 是 周 饮用 量 是 300 富 升 ， 在 4 个 类 中 最 低 。 


由 于 篇 幅 天 系 ， 不 再 一 一 解释 4 个 类 的 特征 ， 归 纳 4 个 类 的 特征 如 下 。 


: 第 一 个 类 : 女性 白领 群 ， 学 历 大 专 左右 ， 在 高 档 的 场所 喝 最 贵 的 啤酒 ， 主 要 是 商务 应 酬 ， 饮 用 量 很 少 。 


. 第 二 个 类 和 第 三 个 类 : 都 是 男性 ， 这 两 个 类 的 差别 在 于 学 历 有 所 不 同 ， 第 二 个 类 的 学 历 比较 高 ， 饮 用量 也 比较 大 。 


. 第 四 个 类 : 年 纪 轻 ， 学 历 低 ， 喝 的 啤酒 最 便宜 ， 饮 用 量 最 大 ， 这 个 类 经 过 我 们 回访 和 比 对 得 知 ， 实 际 上 就 是 外 来 务工 群 。 


从 以 上 的 示例 可 以 看 出 ， 这 几 个 类 的 指标 高 高 低 低 ， 而 聚 类 束 是 将 这 种 高 高 低 低 的 数据 拆 分 出 来 。 


2.SPSS 


这 里 以 案例 文件 10.2 的 数据 作为 以 SPSS 做 聚 类 的 示例 ，SPSS 界 面 如 图 10-8 所 示 。 


分 析 [A) 直销 (M) 图 形 (G) ”实用 程序 (U) 窗口 (W) 
草 述 统计 


t 较 均值 (M) 
一 般 线性 模型 (G) 
广 尽 线性 模型 
混合 模型 0%0) 
相关 (C) 

同 凡 (R) 

对 数 线性 模型 (0) 


和 VF Ww ¥ 下 





着 统 职 光 全) 


图 10-8 


在 SPSS 的 分 类 模型 中 ， 系 统 聚 类 如 同 XLSTAT 中 的 AHC 模 型 一 样 ， 基 本 上 适用 于 多 数 情 况 ， 其 界面 如 图 10-9 所 示 。 
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图 “10-9 


在 图 10-9 中 ， 将 性 别 、 年 龄 、 学 历 、 啤 酒 价格 、 消 费 场 所 、 饮 用 量 等 放置 到 变量 中 ， 然 后 点 击 “ 统 计量 ”， 得 到 图 10-10。 
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图 10-10 
在 “统计 量 ” 的 设置 界面 中 ， 选 择 “方案 沱 围 ”， 将 最 小 聚 类 数 和 最 大 聚 类 数 分 别 设 定 为 3 和 25， 这 表明 指定 模型 按照 三 套 


方案 进行 聚 类 : 即将 数据 分 为 3 个 类 、4 个 类 、5 个 类 。 点 击 “ 继 续 ”， 再 次 进入 图 10-9 所 示 的 界面 ， 在 该 界面 点 击 “ 绘 制 ”， 得 


到 图 10-11。 
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在 “绘制 ”的 界面 中 采用 默认 设置 即 可 。 设 置 好 以 后 ， 再 次 进入 图 10-9 所 示 的 界面 ， 点 击 “ 方 法 ”， 得 到 图 10-12。 
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图 。10-12 


在 聚 类 方法 中 选择 “Ward 法 ”， 操 击 “ 保 存 ”， 得 到 图 10-13，。 


a 


@ 方案 范围 (R) 
最 小 里 类 数 (M). |3 


最 大 职 尖 数 (X):， [5 





图 10-13 


请 注意 ，“ 保 存 ” 中 的 最 小 聚 类 数 和 最 大 聚 类 数 需 要 和 “统计 量 ” 中 的 保持 一 致 。 


以 上 的 选项 都 做 好 后 ， 点 击 主 界面 中 的 “确定 ”， 如 图 10-14 所 示 。 


标注 个 胁 te) 


| | 


3 
各个 案 “名 变量 | 
和 由 
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图 10-14 


这 时 ，sSPss 会 输出 模型 相应 的 输出 部 分 。 回 到 3Pss 的 数据 视图 ， 友 现 数据 视图 中 多 了 三 列 数据 ， 如 图 10-15 所 示 。 
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图 10-15 


请 注意 ， 正 是 因为 前 面 让 模型 按照 三 种 方案 来 做 聚 类 ， 因 此 数据 视图 中 就 多 出 了 三 列 ，CLU5 1 表示 模型 按照 5 个 类 进行 数 
据 分 类 时 各 个 数据 所 属 的 类 的 号 ，CLU4 1、CLU3 1 以 此 类 推 。 


SPSS 这 里 只 是 给 出 了 数据 在 各 种 方案 下 属于 哪个 群 ， 如 果 要 做 到 之 前 XLSTAT 的 效果 ， 还 需要 再 进一步 操作 ， 在 图 10-16 所 
示 的 界面 中 ， 选 择 “ 比 较 均值 ”中 的 “均值 ”。 
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在 图 10-17 中 ， 在 “ 因 变 量 列表 ”中 将 性 别 、 年 龄 、 学 历 、 消 费 场 所 、 周 饮用 量 等 
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图 10-10 





图 10-17 


先入， 在 目 变量 列表 中 选 入 “CLU5 _1、 


CLU4 1、CLU3_ 1”， 再 点 击 “ 选 项 ”， 人 得 到 图 10-18。 
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图 10-18 


在 图 10-18 中 点 击 “ 继 续 ”， 即 返回 到 图 10-17 界 面 ， 在 图 10-17 点 击 “ 确 定 ”， 得 到 三 种 方案 下 的 分 类 情况 ， 如 图 10-19 所 


思 大 


小 \。 


性 列 皇 扣 字 历 喀 酒 从 区 及 喧 场 所 同 芝 用 量 :Ward Method 
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图 10-19 


在 图 10-19 中 ， 每 个 表 里 面 的 都 是 平均 值 ， 解 析 的 方法 跟 XLSTAT 相 同 。 


10.2” 聚 类 的 烦恼 1: 如 何 面 对 数 量 级 差别 大 的 数据 


在 实现 聚 类 时 ， 存 在 一 个 很 大 的 问题 ， 即 如 果 要 聚 类 的 指标 数据 在 数量 级 上 的 磊 别 很 大 ， 要 如 何 处 理 ? 从 宗 例 文件 10.2 的 情 
况 来 看 ， 实 际 上 聚 类 所 依据 的 6 个 变量 的 数量 级 差别 是 很 大 的 ， 为 了 更 好 地 避免 数据 关 别 大 对 聚 类 结果 的 影响 ， 可 移 将 其 标准 
化 ， 然 后 再 做 聚 类 


乍 移 将 其 标准 化 ， 依 次 进入 “分 析 ” 一 “ 摘 述 统计 ”一 “ 摘 述 ”， 如 图 10-20 所 示 。 


描述 统计 
表 () 
tt 较 均值 (M) 


国 频率 (F) 
呈 描述 (D).. 
A 探索 (E).. 
抽 交叉 表 (C) 
加 比率 (R)- 





一 般 线性 模型 (G) 
广义 线性 模型 
混合 模型 (X) 
相关 (C) 

回 丹 (R) 





图 “10-20 


在 “ 摘 述 性 ”界面 ， 将 性 别 、 学 历 等 放 入 “变量 ”中 ， 如 图 10-21 所 示 。 
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图 10-21 
然后 ， 在 左下 角 勾 选 “ 将 标准 化 得 分 另 仓 为 变量 (Z) “ 


(Z) 代表 Z 得 分 ， 得 到 图 10-22。 
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图 10-22 


图 10-22 束 是 经 过 转换 后 的 Z 得 分 ， 表 根据 Z 得 分 进行 聚 类 。 重 复 上 面 的 SPSS 做 聚 类 的 步骤 ,得 到 聚 类 的 结果 如 图 10-23 所 


> | 
二 
oo 


从 图 10-23 可 以 看 到 ， 在 实现 标准 化 之 后 ， 要 区 分 指标 的 高 高 低 低 ， 还 是 有 点 困 难 的， 因此 殊 有 学 员 跟 我 抱怨 说 ， 老 师 ， 还 
不 如 不 做 标准 化 呢 ! 


我 的 回答 是 : 在 企业 里 面 做 数据 分 析 的 人 ， 毕 葛 不 是 在 高 校 科研 院 所 搞 科研 ， 作 为 老师 ， 我 会 把 所 有 的 套路 都 告诉 你 ， 但 是 
具体 喇 么 样 去 用 ， 你 们 自己 党 得 哪个 好 用 ， 融 用 哪个 好 了 。 
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我 在 上 谍 的 时 候 ， 时 不 时 地 会 碰 到 这 样 的 问题 


务 该 如 何 判断 呢 ? 


很 遗憾 ， 我 虽然 在 数据 分 析 方 面 有 一 定 的 经 验 ， 但 仍 
一 些 理论 探索 的 方向 吧 。 


Moderler 里 面 做 K-means 和 两 步 
上 也 没什么 人 用 它 ， 束 不 给 大 家 介绍 了 


， 就 是 这 个 
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图 10-23 


聚 类 的 烦 |82: 如 何 判 断 聚 类 的 质量 


网 得 尚 没有 这 样 的 指标 可 以 判断 聚 
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聚 类 的 时 候 ， 会 有 一 些 粗 略 判断 的 指标 ， 但 是 我 个 人 员 


第 11 章 ”回归 
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聚 类 确实 做 出 来 了 ， 我 们 也 解析 了 聚 类 的 信义， 但 是 


类 的 质量 ， 这 或 许 是 
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聚 类 真正 的 优 


聚 类 方面 可 以 做 


那个 做 得 不 大 好 ， 很 一 般 ， 实 际 


在 数据 分 析 领 十，“ 回 归 ” 可 以 襄 是 大 名 昂昂 ， 很 多 人 都 了 解 或 听 阅 过 。 我 在 上 培训 课 的 过 程 中 ， 曾 做 过 统计 ， 很 多 学 员 尤 
其 是 在 读 大 学 的 时 候 上 过 统计 课程 的 学 员 ， 基 本 都 知道 “回归 ”的 合 义 ， 可 见 回归 在 统计 分 析 中 占据 的 地 位 是 多 么 得 高 啊 ! 


那么 什么 是 回归 呢 ，” 回 归 的 英文 是 regression， 翻 译 成 中 文大 致 残 是 回溯 的 意思 。 我 经 音 跟 学 员 议 ， 回 归 丈 是 “回顾 ”， 融 
是 从 过 去 的 数据 中 寻找 规律 ， 然 后 运用 这 个 规律 来 推测 数据 将 来 的 变化 。 


在 金融 领域 ， 这 种 例子 相当 多 ， 以 中 国 股市 为 例 ， 在 2000 年 的 时 候 A 股 出 现 了 一 个 牛市 ，2007 年 左右 又 是 一 个 长 达 两 年 的 
大 牛市 ，2014 年 7 月 又 开始 了 为 期 一 年 的 牛市 ， 到 2015 年 6 月 15 号 开始 下 跌 ， 那 我 们 可 以 看 出 每 隔 7 年 左右 就 是 一 个 大 牛市 ， 屠 
么 下 一 个 牛市 是 不 是 应 该 在 2021 年 左右 ? 我 们 是 不 是 应 该 在 2019-2020 年 左右 买 入 ， 然 后 静 等 2021 年 牛市 到 来 ? 


可 见 ， 统 计 挖 掘 中 那么 复杂 的 概念 ， 只 要 理解 了 ， 也 没 那么 难 。 


11.1 如何 寻找 现 有 数据 的 内 在 规律 
按照 以 上 的 说 法 ， 回 归 就 是 寻找 历史 数据 之 间 的 规律 ， 那 么 如 何 叶 找 呢 ? “数据 拟 合 ”是 我 们 总 结 和 寻找 历史 数据 中 规律 的 


党 用 方法 ， 以 下 介绍 数据 拟 合 的 概念 及 其 判断 标准 。 


11.1.1 -什么 是 数据 拟 合 


什么 是 数据 拟 合 呢 ? 在 解释 这 个 概念 时 要 用 到 案例 文件 11.1， 通 过 分 析 销 售 费用 和 销售 回 款 之 间 的 关系 来 进行 讲解 。 首 先 ， 
绘制 相应 的 散 点 图 ， 如 图 11-1 所 示 。 
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对 于 图 11-1 所 示 的 散 点 图 ， 可 能 有 读者 会 想 ， 如 果 能 有 一 条 线 把 以 上 的 散 点 串 起 来 ， 而 且 我 们 能 找到 这 条 曲线 的 特征 ， 那 


该 多 好 ! 


事实 上 ， 用 一 条 曲线 把 散 点 串 起 来 的 过 程 就 是 “数据 拟 合 ”。 那 么 如 何 判断 数据 拟 合 的 质量 呢 ? 有 一 个 著名 的 指标 就 是 
R<，R< 这 个 指标 是 在 0 ~ 1 之 间 ， 越 接近 1， 表 示 拟 合 的 效果 越 好 ， 越 接近 于 0， 表 示 拟 合 的 效果 越 差 。 


首先 看 看 在 EXCEL 环 境 中 怎么 做 数据 拟 合 。 


扎 击 上 面 散 点 图 (图 11-1) 中 的 任何 一 个 散 点 ， 再 点击 刀 标 右键 ， 在 弹出 的 页 面 选择 “ 湛 加 趋势 线 ”， 如 图 11-2 所 示 。 
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率直 癌 搞 对 区 格式 (| dd 


此 时 ， 会 出 现 图 11-3 所 示 的 界面 。 


在 添加 趋势 线 的 界面 中 ， 勾 选 左 下 角 的 “显示 公式 ”、 “显示 R 平 方 值 ”， 再 选择 上 面 的 红 框 中 的 任何 一 个 线 型 ， 散 点 图 上 
就 会 出 现 相应 的 曲线 、 曲 线 方程 和 R< 值 ， 如 图 11-4 所 示 。 


下 面 的 工作 就 是 在 以 上 的 各 种 线 型 中 选择 一 个 R< 值 最 大 的 ， 例 如 线性 的 R< 值 是 0.9778， 而 当选 择 “多 项 式 ” 并 且 “ 顺 
序 ” (也 就 是 次 数 ) 是 6 的 时 候 ，R2 值 达到 最 大 ， 值 为 0.9857， 由 此 可 知 ， 多 项 式 并 且 最 高 次 数 是 6 的 时 候 ， 数 据 拟 合 的 效果 最 
好 ， 如 图 11-5 所 示 。 
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图 11-3 


y=21.365x+5.2932 | 





图 11-4 


案例 文件 11.2 也 是 同样 的 例子 ， 读 者 可 以 自行 练习 ， 不 骨 蒙 述 。 
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11.1.2 多 元 线性 回归 


上 面 提 及 的 例子 是 1 对 1 的 情况 ， 也 残 是 1 个 因 变量 对 1 个 上 自 变 量 的 情况 ,但 是 现实 中 有 很 多 是 1 对 多 的 情况 ， 束 是 1 个 因 变量 
对 多 个 目 变 量 ， 这 时 在 EXCEL 环 境 中 融 很 难处 理 了 ， 对 此 ， 可 用 SPss 来 处 理 。 


这 里 会 用 到 案例 文件 11.3 中 的 数据 ， 假 设想 分 析 总 成 本 、 产 量 、 工 资 率 、 产 品 价格 对 租赁 价格 的 影响 ， 百 先进 入 以 下 界面 ， 
如 图 11-6 所 示 。 
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进入 “线性 回归 ”界面 后 ， 做 如 下 选择 ， 如 图 11-7 所 示 。 
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图 11-7 


在 将 “租赁 价格 ” 放 入 因 变 量 ， 将 总 成 本 、 产 量 、 工 资 率 、 产 品 价格 放 入 目 变 量 后 ， 在 回归 方法 中 选择 “逐步 ”， 并 氮 
击 “确定 ”， 得 到 图 11-8。 
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a. 外 变量 : 租 渍 价格 


图 11-8 
可 以 看 到 ， 在 输出 中 ， 模 型 选择 了 工资 率 、 产 品 价格 作 为 租赁 价格 的 影响 因素 。 


在 图 11-9 中 ， 给 出 了 工资 率 和 产品 


价格 这 两 个 影响 因素 的 显著 性 指标 ， 分 别 是 0.005 和 0.02， 均 小 于 0.05， 因 此 工资 率 和 产 
品 价格 这 两 个 因素 对 租赁 价格 的 影响 是 显著 
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图 11-9 


11.2 ”logistic 回 归 


前 面 讲 的 回归 都 是 因 变 量 是 连续 型 的 回归 ， 实 际 上 ， 还 有 很 多 是 因 变量 是 离散 值 的 情况 ， 例 如， 在 膏 销 数据 中 我 们 关注 客户 
是 


是 人 否 购买 ， 融 是 “ 买 ” 和 “不 买 ”两 种 选择 ;再 例如 有 三 种 车 可 供销 售 ， 分 别 是 家 用 和 车、 商务 车 、 桶 后， 我 们 天 注 哪些 客户 会 购 
买 这 三 种 车 型 ， 表 例如 我 们 关注 各 种 环境 方面 的 指标 对 雾 堵 状况 的 影响 ， 例 如 空气 质量 优 、 恨 、 轻 度 污染 、 中 度 污染 、 重 度 污染 


的 影响 。 在 这 种 情况 下 ， 因 变量 是 离散 值 ， 因 此 之 前 使 用 的 普通 回归 的 万 法 已 经 不 再 适用 ， ogistic 回 昌 是 这 种 情况 下 合适 的 角 


logistic 回 归 ， 有 多 种 翻译 方法 ， 人 台湾 学 者 称 乙 为 “ 罗 言 斯 回归 ”， 类 似 的 翻译 还 有 很 多 ， 不 一 而 足 。 


根据 因 变 量 的 不 同 ， 可 以 将 Logistic 回 归 分 为 二 元 Logistic 回 归 、 多 元 名 义 Logistic 回 归 、 多 元 有 序 Logistic 回 归 。 如 2.1.1 节 
所 示 ， 此 处 对 二 元 变量 、 多 元 名 义 、 多 元 有 序 变量 的 概念 不 骨 敖 述 。 


11.2.1 回归 (客户 “ 买 ” 与 “不 买 ” ) 


这 里 通过 案例 文件 11.4 来 研究 年 龄 、 皮 肤 黑 白 程 度 、 职 业 、 体 重 、 收 入 等 对 是 否 购买 的 影响 ， 这 是 一 个 典型 的 二 元 变量 的 回 
。 站 先 ， 依 次 点 击 SPSS 里 的 “分 析 ” 一 “回归 ”一 “二 元 logistic 回 归 ”， 如 图 11-10 所 示 。 


可 


所 击 “ 二 元 Logistic 回 归 ” 后 ， 得 到 如 图 11-11 所 示 界 面 。 
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图 11-11 


在 图 11-11 中 ， 将 “是 否 购买 ” 放 入 因 变量 ， 将“ 年龄: 、“ 职 业 ′ 等 放 入 协 变量 ， 其 他 采用 默认 设置 点击“ 确定， 在 
输出 中 找到 模型 汇总 ， 可 得 到 图 11-12。 


摔 型 社 总 


ox onellR | Nagelkerke 
年 对 | -2 导 歼 雪 灯 值 方 方 





9. 园 灶 答 数 估计 的 所 达 汇 围 小 于 .001 :Pi 二 计 往 法 
信教 日 如 终止 


图 11-12 


从 R2 的 角度 来 看 ， 模 型 回归 的 效果 一 般 。 继 续 看 回归 的 显著 性 指标 ， 如 图 11-13 所 示 。 


方 在 中 的 和 芝 量 


| 





9. 和 三 步 驰 1 中 办 小 用 变 量 :年 龄 , 度 肤 辩 昌 柱 度 , 职业 , 恒 重 , 收 六 人 务 名 ， 
图 11-13 


从 Sig 的 角度 看 ， 除 了 收入 分 级 的 Sig 是 0.055， 比 较 接近 于 0.05 之 外 ， 其 他 的 Sig 都 跟 0.05 差 距 比较 大 ， 如 果 按 照 普通 的 判断 
规则 ， 这 些 指标 对 于 是 否 购买 的 影响 都 不 够 显著 ， 那 我 们 讨论 二 元 Logistic 回 归 电 不 是 没有 意义 了 ? 


实际 上 logistic 回 归 和 普通 的 回归 不 一 样 ， 由 于 本 书 的 原则 之 一 是 尽 可 能 少 地 谈 理论 ， 因 此 这 里 只 是 大 致 地 说 一 说 : 为 了 让 
普通 的 离散 型 变量 也 能 够 做 回归 ， 模 型 在 最 初 就 做 了 一 个 变形 ， 将 研究 的 变量 发 生 的 概 庚 做 变形 ， 例 如 案例 文件 11.4 中 
的 “ 买 ” 与 “不 买 ”， 研 究 的 变量 变形 如 下 : 





Sn 
换个 方式 表达 ， 就 是 购买 的 概率 除 以 不 买 的 概率 ， 根 据 结果 再 取 对 数 ， 公 式 如 下 : 


n 不 网 天 的 概 素 一 1- 不 购买 的 概率 


以 上 这 个 转换 非 澡 有名， 叫 作 “优势 比 ”， 天 于 logistic 回 归 的 更 深入 的 理论 不 再 班 述 ， 不 过 请 读者 记 住 一 点 ， 束 是 做 了 这 
样 一 个 “优势 比 ” 转 换 后 ， 残 不 要 再 计较 万 程 中 变量 的 Sig 值 了 。 再 来 看 图 11-14.。 


方程 中 的 变量 


i 


ot 
职业 


体 种 


申 量 
a. 往 步 各 1 中 蔓 上 的 杰 量 : 年龄 , 皮肤 党 日 程度 , 职业 , 体 曹 ,收入 委 级 . 





图 11-14 


在 图 11-14 中 ，Sig 基 本 都 不 用 看 了 ， 只 要 看 B 列 束 可 以 了 ， 可 以 形成 的 万 程 如 下 : 





ln 二 3.224-0.064* 年 龄 -0.431* 皮肤 黑白 程度 -1.506* 职业 


-0.007* 体重 +2.0$7*# 收入 分 级 


1-p 


请 注意 ， 以 上 的 式 子 计 算出 来 的 结果 都 是 针对 概率 而 言 的 ， 例 如 收入 分 级 的 系数 是 2.057， 表 明 收 入 越 高 束 可 以 显著 地 提高 
购买 的 概率 ; 年 龄 之 前 的 系数 是 -0.064， 这 表明 随 着 年 龄 的 增长 ， 购 买 的 概率 越 小 。 


11.2.2 ”多 元 logistic 回 归 (多 个 品牌 的 选择 ) 


多 元 logistic 回 归 私 怕 是 三 种 logistic 回 归 中 最 复杂 的 一 种 了 ， 不 过 相对 来 说 趣味 性 也 最 强 ， 本 书 会 用 到 案例 文件 11.5 中 的 数 
据 ， 人 研究 变量 是 车 型 ,分 析 性 别 、 婚 姻 状 况 、 年 龄 、 合 资 国 家 (也 束 是 美 系 车 、 德 系 和 车、 日 系 车 ) 、 和 车 的 尺寸 等 对 于 购买 车 型 的 
影响 ， 三 个 车 型 是 家 用 、 商 用 、 跑 车 。SPSS 中 的 变量 视图 如 图 11-15 所 示 。 


人 租 标 位 (V) 
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图 11-15 


我 在 上 培训 课 的 时 候 讲 过 这 个 例子 ， 曾 经 有 学 员 提 出 疑问 , 说 “家 用 ”、“ 工 作 ”、“ 跑 车 ”这 三 者 之 间 是 有 顺序 关系 的 ， 
因此 应 该 算是 名 义 变 量 而 不 是 有 序 变量 ， 理 由 是 跑车 的 档次 要 高 于 工作 用 车 ， 而 工作 用 车 的 档次 要 高 于 家 用 。 


对 此 ， 我 是 这 么 理解 的 : 家 用 、 工 作 、 跑 车 之 间 其 实 并 没有 明显 的 界限 ， 因 为 家 用 车 完全 可 以 有 好 和 车， 用 兰博基尼 做 家 用 车 
的 比比 省 是 ， 工 作用 车 (商务 用 和 车) 往往 强调 座位 数 和 车 内 空间 ， 我 们 总 不 能 说 金杯 面包 车 要 比 一 般 家 用 车 强 吧 ， 而 跑车 和 一 般 
汽车 的 边界 也 在 逐步 模糊 ， 例 如 现在 兴起 的 轿 跑 ， 实 际 上 残 是 一 般 轿 车 和 跑车 的 结合 。 因 此 我 们 还 是 认为 这 三 种 车 型 之 间 是 名 义 


变量 ， 适 用 于 多 元 Logistic 回 归 。 


申 多 项 Logistic 回归 


因 变 量 (DY 
看 年 青 ?(<30) [年 龄 超 .. 和 车模 [ 庆 后 一 沾 人 中) 


点 5 性 别 

点 "5 婚姻 状况 

他 年 龄 

上 童 次 国家 

虚 , 尺寸 
协 变 量 (CY 





在 “多 项 Logistic 回 归 ” 中， 将 “车 型 放 入 因 变 量 ， 将 “性 别 ”、“ 婚 姻 状况 ”、“ 年 龄 ” 、“ 合 次 国家" 、 “尺寸 ”等 
放 入 因子 (如 图 11-16 所 示 ) ， 但 这 个 时 候 就 不 能 简单 地 点 击 “ 确 定 ” 了 ， 因 为 多 项 Logistic 回 归 中 要 做 多 轮 比 对 。 


在 讲 多 项 Logistic 回 归 的 多 轮 比 对 之 前 ， 先 看 一 个 人 物 比 对 的 例子 ， 如 图 11-17 所 示 。 





图 11-17 


现在 做 5 个 人 的 比 对 ， 这 5 个 人 分 别 记 为 1、2、3、4、5， 那 比较 的 过 程 是 什么 样子 呢 ? 看 如 下 的 过 程 : 


1) 拿 第 一 个 人 依次 跟 第 二 个 、 第 三 个 、 第 四 个 、 第 五 个 人 做 比较 ; 


据 ， 





2) 拿 第 二 个 人 依次 跟 第 三 个 、 第 四 个 、 第 五 个 人 做 比较 ; 
3) 拿 第 三 个 人 依次 跟 第 四 个 、 第 五 个 人 做 比较 ; 


4) 拿 第 四 个 人 跟 第 五 个 人 做 比较 。 


~ 


乍 一 看 上 面 的 过 程 还 是 挺 复 杂 的 ,仔细 看 看 ， 是 不 是 每 次 都 是 两 个 人 在 比较 呢 ? 这 实际 上 反映 了 一 个 问题 ， 丈 是 再 复杂 的 数 
其 比 对 的 过 程 ， 实 际 上 残 是 诡 丁 解 牛 ， 进 行 分 拆 之 后 ， 最 后 化 成 两 个 人 之 间 的 比较 。 


回 到 多 项 Logistic 回 归 上 ， 现 在 有 三 个 车 型 ， 实 际 上 也 是 做 两 两 比较 ， 其 具体 过 程 如 下 : 
1) 以 第 一 个 车 型 为 基准 ， 第 二 个 和 第 三 个 车 型 都 依次 跟 第 一 个 车 型 做 比较 ; 

2) 以 第 二 个 车 型 为 基准 ， 第 一 个 和 第 三 个 车 型 都 依次 跟 第 二 个 车 型 做 比较 ; 

3) 以 第 三 个 车 型 为 基准 ， 第 一 个 和 第 二 个 车 型 都 依次 跟 第 三 个 车 型 做 比较 。 
实际 的 操作 如 图 11-18 所 示 。 


氮 击 图 11-18 中 的 参考 类 别 ， 得 到 图 11-19， 进 行 相应 的 设置 。 


上 由 窜 项 Logistic 回归 


内 变量 [ID 
感 5 年 青 ?(=<30) [年 龄 超 .. 车 型 [ 晤 后 一 个 (L)) 


符 考 兴 31(N)... 
因子 (FY 


协 变 基 (CY 


图 11-18 
































图 11-19 


首先 设 定 多 项 Logistic 的 参考 值 是 1， 也 丈 是 以 家 用 车 为 基准 ， 商 务 车 和 跑车 都 跟 家 用 车 进行 比较 ， 输 出 如 图 11-20 所 示 。 


看 输出 中 的 参数 估计 ， 由 于 年 龄 是 连续 值 ， 输 出 非常 繁杂 ， 可 以 说 几乎 没 法 看 ， 这 个 时 候 怎 么 办 呢 ? 


根据 笔者 的 经 验 ， 连 续 型 数据 的 处 理 扩 巧 有 两 个 ， 
把 连续 变量 变 成 离散 变量 进行 处 理 。 


一 是 如 果 有 协 变 量 可 以 选择 ， 束 放 入 协 变 量 中 (如 图 11-21 所 示 ) ; 二 是 
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图 11-21 
现在 来 看 输出 中 的 参数 估计 ， 如 图 11-22 所 示 。 
根据 图 11-22 的 上 半 部 分 得 到 的 方程 是 : 
购买 工作 车 二 0.079-0.025* 年 龄 +0.124* 性 别 1+0.395* 婚姻 状况 1-0.376* 合资 国家 
1-0.31* 合资 国家 2-0.082* 尺 寸 -1.187* 尺 寸 2 
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图 11-22 
根据 图 11-22 的 下 半 部 分 得 到 的 万 程 是 


购买 跑车 二 2.35-0.098* 年 龄 +0.339* 性 别 1+1.304* 婚姻 状况 1-0.148* 合资 国家 1 
+1.101* 合资 国家 2-3.558* 尺寸 1-0.878* 尺寸 2 


从 上 面 两 个 式 子 可 以 看 出 ， 在 年 龄 前 面 的 系数 分 别 是 -0.025 和 -0.098， 这 说 明 有 以 下 几 个 结 

1) 随 着 年 龄 的 增长 ， 购 买 工作 用 车 和 购买 跑车 的 概率 都 是 下 降 的 ; 

2) 同样 的 年 龄 段 下 ， 在 工作 用 车 和 跑车 之 间 ， 消 费 者 (数据 中 的 样本 客 尸 ) 还 是 倾向 于 买 工作 用 车 的 。 
再 看 性 别 1 (男性 ) 对 于 购买 两 种 车 的 影响 ， 结 论 为 : 男性 在 工作 用 车 和 跑车 之 间 更 倾向 于 购买 跑车 。 
下 面 的 结论 以 此 类 推 ， 不 再次 述 


再 继续 往 下 进行 分 析 ， 如 图 11-23 所 示 。 
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图 11-23 
同样 来 看 参数 估计 ， 同 样 地 写 方 程 做 对 比 。 
最 后 一 步 是 以 车 型 3 为 基准 做 对 比 。 


总 的 来 说 ， 多 项 Logistic 回 归还 是 比较 繁复 的 。 


11.2.3 ”多 元 有 友 |logistic 回 归 


本 节 使 用 案例 文件 11.6， 来 研究 售后 满意 度 。 写 无 疑问 ， 售 后 满意 度 是 有 序 变量 ， 可 米 用 多 元 有 序 Logistic 回 归 ， 根 据 图 
11-24 中 的 内 容 进 行 相应 的 设置 。 


内 Ordinal 回归 
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图 11-24 
由 于 年 龄 属于 连续 变量 ， 因 此 在 界面 上 将 其 放 入 协 变 量 ， 然 后 点 击 “ 确 定 ”。 


SPSS 在 有 序 Logistic 回 归 方 面 的 界面 做 得 稍微 有 点 混 瑟 ， 例 如 有 序 Logistic 回 归 被 称 为 PLUM- 序 数 回 归 (如 图 11-25 所 
示 ) ， 读 者 在 这 方面 要 能 够 适应 ， 最 后 的 输出 如 图 11-26 所 示 。 





图 11-25 
在 图 11-26 中 ， 看 到 除了 两 个 阀 值 之 外 ， 其 他 的 因素 及 其 估计 都 是 一 样 的 ， 也 残 是 如， 最 多 形成 两 个 方程 。 


在 写 出 这 两 个 方程 之 前 ， 首 先 看 一 下 轮 计 Logit 转 换 的 概念 ， 在 有 序 Logistic 回 归 中 是 采用 累计 Logit 转 换 的 。 假 设 现在 有 三 
个 变量 ， 变 量 之 间 是 可 以 排序 的 ， 其 友 生 的 概率 分 别 为 KT1、T2、Tt3， 宗 计 Logit 转 换 简单 地 讲 束 是 “一 件 事情 友 生 的 概率 除 以 它 
不 上 生 的 概率 ， 再 进行 对 数 处理 ” : 








Al 
log it 一 log it 
8 ] -XA No 


如 上 陈 ， 融 是 第 一 件 事 情 友 生 的 概率 1 除 以 它 不 上 肥 生 的 概率 再 进行 对 数 处 理 即 可 。 


参 狐 估计 值 


95% 置信 区 问 
佑 计 “| 标准 误 | wald up | 


[售后 满意 度 = 11] 73.282 
[售后 满意 度 = 习 -. . 3.098 
年 龄 -. | 199.377 
路 从来 平 =1.00] 402.390 
路 人 来 平 =2.00D] 257.308 


路 和 水 平 =3.00] . . 6B3.401 


路 和 来 平 =4.00] 

[教育 程度 =11] -. . 44.233 
[教育 程度 =2] -. . 20.914 
[部 育 程 度 =3] - . 了 .395 
铬 育 程 度 =] -. . 696 
[教育 程度 = 缮 ] 

[性 别人 

[性 别 =mm] 





对 于 第 一 件 事情 和 第 二 件 事 情 的 和 ， 计 算 公式 如 下 : 
] .TX1+N2 一 | 1 十 
QF 于 [x A Og 1{ 一 一 


高 清楚 什么 是 累计 logit 转 换 之 后 ， 得 到 两 个 方程 ， 如 下 : 


人 1 





log it 一 -1.288-0.031*# 年 龄 +1.618* 收入 水 平 1+1.071* 收入 水 平 2 
+0.607* 收入 水 平 3-0.772* 教育 程度 1-0.51* 教育 程度 2 


-0.312* 教育 程度 3-0.096* 教育 程度 4+0.045* 性 别 1 


] —NAi 


NITN? 





log it 一 -0.263-0.031* 年 龄 +1.618*# 收入 水 平 1+1.071* 收入 水 平 2 
+0.607* 收入 水 平 3-0.772* 教育 程度 1-0.51* 教育 程度 2 


-0.312* 教育 程度 3-0.096* 教育 程度 4+0.045* 性 别 1 


M3 


乍 看 上 面 的 式 子 ， 肯 定 会 头 早 ; 但 如 果 静 下 心 来 仔细 看 一 看 ， 束 会 完 得 似乎 也 没 那么 麻烦 ， 例 如 收入 水 平 1 前面 的 系数 是 
1.618， 那 么 收入 水 平 1 跟 第 一 件 事情 友 生 的 概率 rr1 是 同步 的 ， 年 龄 跟 T1 的 变化 方向 是 相反 的 ， 对 于 上 面 的 第 二 个 式 子 ， 如 果 做 
一 下 转换 ， 要 得 出 结论 就 很 容易 了 : 








log it 


区] 十 和 2 1】 -73 
一 log it 
/3 


从 上 式 可 以 看 出 ， 收 入 水 平 1 跟 第 3 件 事情 友 生 的 概率 nt3 是 相反 的 ， 年 龄 跟 n3 的 变化 万 向 是 相同 的 。 


第 12 草 ”关联 分 析 


有 人 说 ， 关 联 分 析 是 数据 挖掘 的 第 一 步 ， 想 要 以 数据 挖掘 为 专业 ， 那 么 必须 得 知道 什么 是 关联 分 析 。 但 有 很 多 人 经 党 在 相关 
分 析 和 关联 分 析 之 间 犯 迷糊 ， 实 际 上 两 者 之 间 的 磊 别 很 明显 ,相关 分 析 是 分 析 数 据 列 之 间 同 增 同 减 的 关系 ,而 关联 分 析 反 映 的 是 
一 个 数据 行内 部 的 各 个 元 素 之 间 同 时 出 现 或 者 “你 在 、 我 束 在 ”的 关系 。 


要 讲 天 联 分 析 ， 融 不 得 不 提 到 数据 分 析 中 “因果 关系 ”的 弱化 这 一 趋势 。 


12.1 因果 天 系 的 弱化 


长 期 以 来 ， 在 数据 分 析 领 域 ， 我 们 都 目 锅 不 目 名 地 在 退 求 和 挖掘 数据 之 间 的 “因果 天 系 ”， 例 如 机 场 雷 电 天 气 以 及 强 侧 风 和 
飞机 集 飞 之 间 的 关系 如 何 ， 销 售 投入 的 增长 是 否 会 引起 销售 回 款 的 增长 ， 人 口 的 流入 是 否 一 定 会 市 来 房价 的 上 涨 ，“ 七 年 之 


痒 ” 是 否 会 市 来 离婚 数量 的 上 升 等 。 


随 看 数据 分 析 技 术 的 不 断 改进 以 及 分 析 经 验 的 不 断 积 累 ， 人 们 开始 认识 到 ， 事 物 乙 间 未 必 完 全 是 “有 因 必 有 果 、 有 果 必 有 
因 ” 的 关系 ， 很 多 事件 乙 间 呈现 一 种 比较 松散 的 、 逻 辑 性 并 非 很 强 的 “关联 ”天 系 ， 这 种 天 联 关系 在 数据 挖掘 而 非 传统 统计 的 案 
例 中 经 常 出 现 ， 以 下 以 美国 天 于 婚龄 和 离婚 率 的 研究 为 例 作 和 解释。 


美国 学 者 通过 对 美国 民政 部 门 数 据 的 分 析 、 研 究 和 退路 ， 友 现 婚 龄 在 两 个 阶段 的 离婚 率 比 较 高 ， 一 是 婚龄 在 7 年 左右 ， 二 是 
在 男性 40 ~ 45 岁 之 间 这 个 年 龄 段 ， 前 者 就是 我 们 熟知 的 “七 年 之 痒 ”。 究 其 原因 ， 婚 龄 在 7 年 左右 这 一 年 龄 段 是 婚姻 中 的 第 一 


段 “ 疫 和 元 期 ”， 而 男性 到 了 中 年 期 遭遇 离婚 率 高 峰 有 以 下 几 个 原因 : 
:长 期 的 婚姻 生活 产生 的 疲劳 感 。 
“ 如 果 不 离婚 ， 超 过 50 岁 后 ， 估 计 很 难 再 有 离婚 的 勇气 。 
-子女 多 数 已 经 成 年 。 


如 果 从 “因果 关系 ”的 角度 来 考虑 上 述 的 问题 ， 婚 龄 和 离婚 率 之 间 的 因果 关系 并 不 强 ， 并 不 是 说 婚龄 到 了 7 年 或 者 男性 到 了 
40 ~ 45 风 左右 束 一 定 要 离婚 ， 如 果 要 真是 如 此 ， 父 母 怎么 省 得 女儿 出 巡 啊 ? 


这 样 的 例子 比比 省 是 ， 癌 症 友 病 的 影响 因素 的 分 析 、 天 气 预 报 的 数据 分 析 ， 等 等 都 是 这 种 “ 较 弱 ”因果 关系 的 例证 。 


要 分 析 数 据 之 间 的 “关联 ”关系 ,我 们 要 应 用 apriori 算 法 ， 目 前 各 种 主流 的 数据 分 析 和 挖掘 软件 ， 都 采用 了 这 个 算法 。 


12.2 关联 分 析 的 指标 


在 讲解 关联 分 析 的 规则 之 前 ， 看 一 个 很 小 的 案例 ， 以 下 是 三 条 购物 数据 : 
1) 梅 汗 、 咖 啡 、 牛 奶 ; 

2) 橙汁 、 咖 啡 、 球 内 ， 

3) 剃 须 刀 、 丹 专 曲 奇 、 咖 啡 。 

从 以 上 简单 的 三 条 数据 ， 可 以 得 到 如 下 的 结论 : 

1) 同时 购买 杜 污 和 咖啡 的 概率 是 2/3， 

2) 买 了 咖啡 以 后 再 买 橙汁 的 概率 是 2/3 ; 

3) 买 了 梅 汁 以 后 再 买 咖啡 的 概率 是 100%。 


小 小 的 三 条 数据 ， 残 可 以 得 出 三 条 比较 有 用 的 结论 ， 这 种 在 数据 中 间 挖 据 “ 同 时 存在 ”或 者 “你 在 、 我 就 在 ”的 技术 ， 殊 是 
天 联 分 析 。 下 面 看 几 个 重要 的 关联 分 析 算 法 的 基本 概念 。 


12.2.1 支持 度 


支持 度 的 严 文 是 support， 这 里 说 的 支持 度 等 指标 都 是 相应 严 文 的 翻译 ， 置 信和 度 的 美文 是 confidence， 提 升 度 的 瑞 文 是 
lift。 


支持 度 束 是 数据 中 的 相应 的 元 素 同时 出 现 的 概率 ， 例 如 在 上 例 中 ， 林 汁 和 咖啡 的 支持 度 束 是 2/3。 


12.2.2 ”置信 度 


置信 度 就 是 统计 中 的 条 件 概率 ， 不 过 条 件 概率 到 了 关联 分 析 中 有 了 “前 项 ”和 “后 项 ”这 两 个 概念 ， 例 如 A 出 现 以 后 B 出 现 
的 概率 ， 称 A 为 前 项 ，B 为 后 项 ， 那 么 A 到 B 的 置信 和 度 就 是 : 
A 和 各 B 同 时 发 生 的 概率 


4 一 有 的 置信 度 一 
4 的 概率 
反 过 来 ，B 到 A 的 置信 度 为 : 


_4 各 B 同时 发 生 的 概率 


De B 的 概率 


12.2.3 ”提升 度 


提升 展 是 一 个 很 有 趣 的 概念 ， 有 的 人 根本 不 看 它 ， 但 是 笔者 个 人 认为 ， 最 好 还 是 看 一 看 吧 ， 上 总之， 在 这 个 概念 的 运用 上 ， 是 
有 一 些 争议 的 。 先 来 看 一 下 提升 度 的 定义 ， 以 X 表 示 有 前 项 ，Y 表 示 后 项 ，X 到 Y 的 提升 度 就 是 : 
置信 和 度 (x 一 y) 


Ee 
炎 升 厦 (x PP (没有 x， 但 是 有 上) 


现在 有 两 组 用 户 ， 甲 组 和 乙 组 ， 分 别 买 杀 叶 和 咖啡 ， 购 买 数据 如 表 12-1 所 示 。 


表 12-1 
用 户 组 买 茶叶 的 人 数 买 咖 啡 的 人 数 
甲 组 ( 500 人) 500 450 


现在 要 求 “ 茶 叶 - 咖 啡 ”的 支持 度 、 置 信和 度 、 提 升 度 ， 应 该 怎样 计算 ? 

茶叶 和 咖啡 的 支持 度 很 容易 计算 ， 同 时 买 茶 叶 和 咖啡 的 人 数 是 450， 因 此 支持 度 束 是 450/1000=0.45。 
茶叶 -咖啡 的 置信 和 度 也 比较 容易 计算 ， 置信 和 度 =450/500=0.9。 

茶叶 -咖啡 的 提升 度 计算 如 下 : 


z 置信 和 度 (茶叶 一 咖啡 ) 0 
了 
(没有 茶叶 ， 但 是 有 郊 寿 ) 0 


提升 度 等 于 1 是 一 个 很 不 好 的 事情 ， 实 际 上 它 意味 着 茶叶 和 咖啡 之 间 是 相互 独立 的 ， 也 丈 是 说 虽然 “ 共 叶 -咖啡 ”的 支持 度 是 
0.45， 置 信和 度 高 达 90%,， 但 是 “茶叶 -咖啡 ”并 不 是 一 个 有 效 的 规则 。 


因此 ， 仅 计算 文 持 度 和 置信 和 度 是 不 够 的 ， 还 要 看 文 持 度 指标 ， 其 规则 如 下 : 


Liftf(x 一 y)>1， 则 x 一 y 是 强 规则 
Lift(x 一 y)=1， 则 x 和 和 yy 是 相互 独立 
Lift(x 一 y)<1， 则 x 一 y 是 无 效 规则 


12.3 ”什么 样 的 数据 适合 做 关联 分 析 


关联 规则 的 适用 性 很 广 ， 其 实 只 要 数据 格式 符合 要 求 ， 都 可 以 及 用 关联 规则 来 分 析 ， 以 下 简单 分 析 一 下 关联 规则 的 应 用 。 


12.3.1 商 超 数据 

商场 和 超市 数据 是 天 联 分 析 最 先 被 应 用 的 地 方 ， 自 然 也 是 关联 规 则 应 用 的 主要 场所 。 商 超 数 据 做 天 联 分 析 的 主要 目的 残 是 用 
来 做 捆绑 销售 ， 这 种 捆绑 销售 主要 体现 在 两 个 方面 : 

. 实体 店 中 的 捆绑 : 将 相应 产品 的 货架 摆 放 在 一 起 或 者 放 在 比较 相近 的 位 置 。 

. 网 店 中 的 搭 售 : 根据 客户 消费 中 的 关联 性 ， 进 行 相关 礼包 的 组 合 或 者 销售 的 推荐 。 


笔者 数 年 前 到 栅 州 去 参加 阿里 巴巴 大 数据 处 理 的 相关 会 议 ， 阿 里 相 天 人 十 介绍 说 ， 在 对 淘宝 女装 的 销售 数据 进行 分 析 时 ， 友 
现 一 些 购买 女 浴 的 客 己 同时 也 会 购买 zippo 打 火 机 ， 也 丈 是 说 给 目 己 购买 服 六 的 女性 也 不 扎 给 上 自己 的 男 朋 友 或 老公 购买 打火机 ,， 
因此 淘宝 在 相关 的 店铺 建议 中 丈 提 到 ， 建 议 女 浴 的 卖家 在 网 店 店铺 中 开设 一 个 zippo 打 火 机 专柜 。 结 果 一 些 做 女 六 的 卖家 在 其 淘 
宇 店 铺 中 开始 出 售 zippo 打 火 机 等 ， 销 量 还 不 错 ， 这 说 明 “ 混 搭 ” 销 售 的 市 场 还 是 比较 大 的 。 


12.3.2 ”金融 效 据 


金融 领域 也 是 关联 分 析 应 用 的 重要 场合 ， 两 个 比较 典型 的 应 用 是 金融 欺诈 和 关键 指标 分 析 ， 两 者 的 做 法 其 实 是 非常 相似 的 ， 
以 下 简单 说 明 一 下 : 

金融 欺诈 是 金融 系统 监管 中 的 重要 问题 ， 金 融 欺诈 包括 洗钱 、 卡 盗 刷 、 伪 卡 使 用 等 多 种 欺诈 行为 ， 随 着 犯罪 分 子 扩 林 水 平 的 
提高 ， 金 融 欺诈 行为 变 得 越 来 越 复杂 ， 同 时 呈现 出 高 智商 和 高 技术 的 特征 。 

作为 金融 监管 方 ， 一 方面 是 要 在 金融 欺诈 发 生 后 ， 会 同 公 安检 察 机 关 打 击 金融 犯罪 ; 另 一 方面 也 人 迫切 需要 在 金融 欺诈 行为 发 
生 之 前 未 雨 绸 级 ， 及 早 识 破 预防 金融 犯罪 的 发 生 。 

现在 的 通行 做 法 之 一 是 在 金融 欺诈 已 经 发 生 的 历史 数据 中 ， 对 于 金融 欺诈 行为 记 为 1， 没 有 金融 欺诈 的 行为 记 为 0， 同 时 记 
录 人 金融 欺诈 行为 发 生 之 前 若干 时 间 的 相关 行为 数据 ， 例 如 账户 的 资金 流入 情况 、 资 金 流 出 情况 、 大 笔 的 资金 提出 记录 、 关 联 账 户 
的 资金 变动 情况 等 ， 随 后 对 于 以 上 数据 做 关联 分 析 ， 重 点 关注 与 金融 欺诈 行为 标识 为 1 的 数据 的 关联 行为 ， 再 运用 业务 逻辑 进行 
贤 选 判断 。 


另外 一 个 重要 的 应 用 是 相关 金融 行为 的 分 析 研 究 ， 例 如 大 家 都 很 天 心 的 股票 涨停 板 ， 我 们 通常 很 关心 哪些 股票 数据 的 变化 和 


股票 涨停 板 之 间 有 关联 。 做 法 和 人 金融 欺诈 行为 的 分 析 非 党 相似， 仍然 是 记 股 票 的 涨停 板 为 1 (在 有 的 研究 中 记 股 票 的 涨幅 超过 7% 
为 1) ， 随 后 将 涨停 板 的 相关 指标 的 特征 与 涨停 板 的 指标 数据 做 天 联 分 析 ， 重 点 分 析 股 票 涨 停 板 时 相应 的 指标 是 怎么 样 的 ， 并 给 
后 续 的 股票 操作 提供 参考 依据 。 


在 金融 数据 的 天 联 分 析 中 ， 有 两 种 天 联 天 系 : 一 是 同步 的 数据 关联 ， 二 是 有 一 定时 间 差 距 的 天 联 ， 例 如 某 个 股票 的 指标 出 现 
某 种 特征 时 ， 两 个 交易 日 后 股票 涨停 板 ， 那么， 这 两 种 天 联 关 系 我 们 都 需要 考虑 。 


12.3.3 ”生产 质量 数据 


生产 质量 数据 也 是 关联 分 析 应 用 的 重要 场所 ， 其 实 做 法 跟 金 融 行业 非 囊 相似 ， 我 们 主要 关注 产品 次 品 率 ， 也 是 同样 将 产品 次 
品 率 高 的 批 次 标识 出 来 ， 与 相应 的 生 严 数据 进行 天 联 分 析 ， 包 括 产 品 批 次 、 供 货 批 次 、 班 次 、 工 人 师 伟 等级、 车间、 电压 等 数 
据 。 


与 金融 数据 分 析 目 标 相似 ， 生 产 质 量 数据 也 非常 重视 故障 的 预 判 ， 我 们 通常 希望 找到 相应 的 数据 特征 ， 在 这 个 数据 特征 之 后 
能 够 对 机 器 设备 故障 等 进行 预 判 。 


12.4 ”关联 分 析 的 具体 操作 


在 谈 关 联 分 析 的 操作 之 前 ， 首 先 要 谈 一 下 数据 格式 问题 ， 在 做 数据 分 析 之 前 ,很 多 情况 下 都 要 先 做 数据 的 转换 ， 很 多 的 数据 
最 开始 都 如 表 12-2 所 示 。 


上 | | 


这 样 的 数据 在 Moderler 中 是 没 法 处 理 的 ， 需 要 将 其 转化 成 以 下 的 样式 ， 见 表 12-3。 


表 12-3 


区 
再 
| 和 了 
让 
辣子 
: 辣子 
和 


转换 的 具体 操作 如 下 : 
1) 打开 Moderler， 在 “ 源 ” 中 选择 EXCEL 节 点 ， 导 入 案例 文件 12.1。 


2) 在 “输出 ”中 选择 “ 表 ”， 连 接 EXCEL 节 氮 和 表 节 点 ， 运 行 表 节 点 ， 得 到 图 12-1。 
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3) 人 在 “字段 ”选项 中 找到 “ 
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图 12-1 


4) 双击 “类 型 ”节点 ， 选 择 各 个 字段 的 角色 ， 序 号 在 分 析 中 是 无 用 的 ， 选 择 为 “无 ”， 如 图 12-2 所 示 。 
5) 在 “ 建 模 ” 市 后 中 选择 Apriori 节 感 ， 如 图 12-3 所 示 。 
6) 将 Apriori 节 点 连 接 到 “TYPE” 节 点 ， 并 双击 ， 可 得 到 图 12-4。 


在 图 12-4 中 ， 选 择 “ 使 用 定制 设置 ” 
品 ”， 青 点击“ 运行 ”， 得 


到 图 12-5。 


， 勾 选 “使 用 事务 处 理 格式 ”， 在 ID 中 选择 “订单 号 ”， 














图 12-2 
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图 12-3 





图 12-4 


7) 双击 图 12-5 中 的 钻石 节点 ， 得 到 图 12-6。 
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图 12-0 











在 图 12-6 的 排序 栏 上 ， 可 以 看 到 有 “支持 度 %”、” 置 信和 度 %” 等 排序 选项 ， 这 里 选择 “支持 度 %”， 如 图 12-7 所 示 。 
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从 图 12-7 中 可 以 得 到 ， 在 购买 的 订单 中 ， 同 时 购买 香 焦 和 竺 果 的 概率 为 625%， 购 买 香 焦 后 购买 茸 果 的 概率 为 84.612。 其 他 
的 结论 均 比 较 简 单 ， 不 再 重复 。 


第 13 章 ”预测 


在 笔者 的 培训 和 项 目 实施 过 程 中 ， 会 碰 到 一 尝 学 员 对 预测 比较 感 兴 趣 ， 需 求 的 来 源 多 种 多 样 ， 有 的 学 员 识 领导 硕 望 对 明年 的 
产销 量 做 一 个 预 信 ， 有 的 学 员 则 更 进一步 ， 训 领导 希望 对 公司 产品 的 友 展 做 一 个 中 长 期 的 规划 。 预 测 是 一 个 比较 有 趣 又 有 争议 的 
话题 ， 首 先 ， 我 想 训 ， 数 据 预 测 绝对 不 是 一 个 扳 立 的 需求 ， 从 吝 到 今 ， 人 们 都 有 预测 未 来 的 需求 ， 国 家 的 统治 者 希望 知道 未 来 国 
家 的 命运 如 何 ， 农 民 和 希望 知道 明年 是 否 风调雨顺 等 。 其 次 ， 我 想 阅 ， 即 使 不 从 技术 的 层面 考虑 ， 预 测 能 做 得 准确 吗 ” 人 类 能 预测 
未 来 吗 ? 起 码 我 心里 是 没 底 的 。 第 三 ,我 认为 ， 截 至 目前 ,我 们 的 预测 技术 仍然 很 不 成 熟 ( 详 见 13.1 节 ) ， 因 此 做 预测 在 目前 看 
来 是 一 件 比 较 平 百 而 且 有 风险 的 事情 。 


当然 ， 不 是 说 一 件 事情 有 难度 ， 我 们 束 一 定 不 要 去 做 ， 或 诗人 类 的 进步 融 是 在 挑战 困难 和 未 知 中 不 断 前 行 的。 以 下 我 们 较 系 
统 地 介绍 一 些 单 用 的 预测 扩 术 和 方法 。 


13.1 什么 是 预测 ， 巴 出 的 准确 度 高 吗 


(1) 研究 变量 的 影响 因素 往往 太 多 


我 们 关注 的 很 多 事情 ， 都 受到 多 种 因素 的 影响 ， 以 雾 起 指标 PM2.5 为 例 ， 很 多 人 都 认为 现在 工业 发 展 得 太 快 ， 但 是 环境 整洁 
的 北美 、 欧 洲 等 及 达 国 家 也 是 有 工业 的 ; 又 有 一 些 人 认为 是 我 们 的 汽车 工业 友 展 太 快 了 ， 但 是 世界 上 很 多 大 城市 的 汽车 保有 量 也 
很 大 ， 这 些 大 城市 并 没有 出 现 严 重 鼻 牙 。 综 合 现在 的 研究 成 果 ， 一 个 地 区 的 PM2.5 措 标 ， 受 到 工业 排放 、 汽 车 排放 、 燃 煤 供暖 、 


季 书 、 地 形 、 空 气流 通 状 况 等 多 种 因素 的 影响 ， 可 以 讲 情 况 是 相当 复杂 。 


再 例如 企业 想 预 测 明年 企业 的 销量 ， 那 影响 因素 有 哪些 呢 ? 以 钢铁 企业 为 例 ， 国 家 整体 经 济 形势 对 钢铁 企业 的 影响 是 很 大 
的 ， 同 时 上 下 游 企 业 的 影响 也 很 大 ， 例 如 下 游 的 房地产 、 汽 车 等 ， 竞 争 对 手 和 况 品 的 情况 也 人 至 天 重要 ， 当 然 企 业内 部 的 管理 水 
平 、 研 友 能 力 等 影响 也 很 显著 。 钢 铁 企业 通 单 规模 体 量 都 比较 大 ， 而 在 一 些 规 模 比 较 小 的 企业 ， 甚 到 企业 里 面 一 个 业绩 很 好 的 销 
售 跳 模 了， 都 会 对 整个 企业 的 销售 市 来 较 大 影响 。 


再 来 看 看 现在 几乎 全 国人 民 都 关心 的 一 个 问题 ， 那 就 是 中 国 的 房价 有 多 少 个 影响 因素 。 这 也 是 一 个 很 典型 的 问题 ， 可 能 涉 
的 因素 包括 国家 经 济 情况 、 土 地 供应 、 金 融 环境 的 问题 、 人 口 问题 、 国 家 政策 、 国 外 热钱 问题 等 ， 甚 至 于 轨道 交通 友 展 ， 或 者 艾 
母 娘 的 态度 等 。 对 于 这 一 类 问题 ， 要 怎么 建立 一 个 模型 ， 把 如 此 复杂 的 因素 都 放 到 一 个 模型 里 面 去 呢 ? 


(2) 预测 的 逻辑 本 身 的 问题 


不 管 预测 的 软件 如 何 强大 ， 模 型 如 何 先 进 ， 目 前 的 预测 扩 术 基本 上 都 是 建立 在 一 个 假设 上 ， 或 者 是 逻辑 上 的 ， 那 就 是 未 来 还 


是 会 重复 过 去 ! 


举 一 个 例子 ，2000 年 的 时 候 ， 中 国 出 现 了 一 波 牛市 ，2007 年 的 时 候 ，A 股 又 出 现 了 一 波 大 牛市 ，2014 年 7 月 ，A 股 又 涨 了 一 
年 ， 直 到 2015 年 6 月 开始 下 跌 ， 因 此 大 家 都 说 ， 中 国 A 股 是 7 年 一 个 周期 。 


于 是 乎 ， 大 家 束 开 始 民 避 美 好 的 未 来 ， 束 是 2021 年 左右 ， 中 国 又 会 出 现 一 个 牛市 。 
你 有 没有 想 过 ， 我 们 思考 的 逻辑 是 : 未 来 会 重复 过 去 ， 但 是 问题 是 ， 如 果 未 来 不 重复 过 去 ,该 怎么 办 ? 
(3) 部 分 影响 因素 难以 “定量 化 " 


前 面 提 到 了 事物 的 影响 因素 多 ， 事 实 上 ， 在 这 些 因 素 里 ， 有 很 多 因素 却 是 很 难 量化 的 ， 例 如 我 们 经 第 说 中 国人 会 倾 全 家 之 力 
给 孩子 在 一 线 城市 买房 ， 什 么 叫 “ 倾 全 家 之 力 ”， 全 家 是 几 个 人 ? 全 家 之 力 能 拿 出 多 少 钱 ? 表 例 如 营销 数据 预测 方面 ， 国 家 政 
策 、 产 业 政 策 这 些 如 何 量 化 ? 


忌 之 ， 做 数据 预测 ， 尤 其 是 社会 科学 领域 的 预测 ， 是 一 件 非常 困难 的 事情 。 
于 是 乎 ， 下 一 个 问题 来 了 ， 这 么 难 的 事情 ， 为 什么 要 做 呢 ? 


明明 知道 做 预测 很 难 ， 但 是 还 是 想 去 做 ， 这 融 反 映 了 我 们 退 求 事情 本 质 的 一 种 精神 一 一 做 总 比 不 做 要 好 ， 起 码 可 以 提供 一 
些 经 营 管 理 的 科学 性 ， 避 免 一 些 低级 的 错误 出 现 。 


下 面 束 介绍 一 下 常用 的 主流 预测 技术 。 


13.2 ”移动 平 肯 


1. 移 动 平均 法 


使 用 “移动 平均 法 ”几乎 是 做 数据 预测 的 第 一 步 ， 它 的 基本 原理 是 最 近 的 数据 平均 值 可 以 有 反映 近期 的 数据 情况 。EXCEL 中 的 
AVERAGE 函 数 可 以 很 方便 地 获得 移动 平均 值 ， 以 案例 文件 13.1 中 的 数据 表 为 例 ， 对 A 列 的 数据 按照 天 数 (3、5、8、10、12) 
获得 移动 平均 值 ， 如 图 13-1 所 示 。 
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图 13-1 


从 图 13-1 可 以 看 出 ， 移 动 平均 的 周期 越 短 ， 移 动 平均 的 曲线 束 越 接近 于 实际 数据 ， 这 很 容易 理解 ， 周 期 越 长 ， 等 于 越 多 地 
考虑 了 远 期 的 数据 ， 周 期 越 短 ， 则 基本 上 只 考虑 近期 的 数据 ， 肯 定 是 接近 本 期 的 数据 了 。 


2. 二 次 移动 平滑 的 万 法 


二 次 移动 平滑 实际 上 是 用 一 条 直线 来 模拟 数据 的 变化 ， 以 案例 文件 13.2 中 的 数据 表 为 例 ， 现 在 有 B 列 的 数据 ， 共 12 期 ， 要 预 
测 后 面 两 期 的 数据 。 预 测 的 步骤 如 下 。 


1) 首先 计算 B 列 的 移动 平均 ， 周 期 为 3， 计 算 结果 见 C 列 。 
2) 根据 C 列 结果 计算 二 次 移动 平均 ， 周 期 同样 是 3， 结 算 结 果 见 DD 列 。 


3) 下 面 依 次 计算 后 面 回 归 的 方程 的 系数 ， 其 计算 公式 为 : 





其 中 是 一 次 移动 平均 ，51 是 二 次 移动 平均 ，N 是 移动 平均 的 期 数 ， 这 里 就 是 3。 


根据 以 上 的 公式 ， 可 以 计算 出 最 后 一 期 的 两 个 预测 系数 ， 如 图 13-2 所 示 。 


ey 一 次 移动 平均 一 次 移动 
月 份 t 产 重 数据 y。 1 人 平均 1 全 
500 

450 

520 

530 

480 

520 

5d40 

500 

550 

560 

510 

580 


1 
2 
C 
+ 
- 
b 
r 
0 











这 两 个 预测 系数 束 是 图 13.1 中 的 557.8 和 7.78。 


4) 现 有 的 数据 是 12 期 ， 后 面 两 期 的 数据 束 是 第 13 和 和 14 期， 实际 上 束 是 代入 到 以 下 公式 : 预测 值 =557.8+7.78* 期 数 ， 后 面 
两 个 月 的 期 数 分 别 是 1 和 和 2， 代入 即 可 。 


案例 文件 13.3 是 二 次 移动 平滑 的 另外 一 个 例子 ， 供 读者 做 参考 。 


13.3 ”指数 平滑 


指数 平滑 同样 也 是 做 数据 预测 的 常用 方法 ， 指 数 平滑 和 移动 平均 的 区 别 在 于 ， 在 指数 平滑 中 ， 每 一 个 数据 都 没有 浪费 ， 都 会 
对 现在 的 数据 有 所 影响 ， 只 是 越 是 远 期 的 数据 ， 对 现在 的 影响 越 是 微弱 ， 越 是 近期 的 数据 ， 对 现在 的 影响 越 是 显著 ;而 移动 平均 
则 只 是 考虑 了 周期 内 的 数据 ， 例 如 周期 是 3， 则 只 是 考虑 近 3 期 的 数据 。 


13.3.1 ”二 次 指数 平滑 


二 次 指数 平滑 是 给 出 一 个 “平滑 系数 ”， 这 个 平滑 系数 在 0-1 之 间 ， 以 案例 文件 13.4 为 例 ， 现 在 有 12 期 数据 ， 以 下 是 做 一 次 


指数 平滑 的 步骤 : 


1) 确定 最 初 的 值 ， 一 般 是 取 前 n 期 的 平均 值 ，n 的 取 法 不 一 而 足 ， 这 里 取 n=3。 


2) 确定 一 个 平滑 系数 ， 记 平滑 系数 为 a， 在 案例 文件 13.4 中 取 0.6; 

3) C 列 计算 第 一 次 指数 平滑 ， 公 式 是 : 

指数 平滑 值 =a* 本 期 实际 值 + (1-a) * 上 一 期 指数 平滑 值 

4) DD 列 计算 第 二 次 指数 平滑 值 ， 公 式 同 上 ， 即 在 C 列 的 基础 上 继续 做 指数 平滑 ， 公 式 和 上 述 的 一 样 。 


5) 根据 以 上 公式 计算 出 最 后 一 期 的 指数 平滑 值 ， 也 就 是 图 13-3 中 最 下 面 一 行 的 黄色 部 分 。 
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此 外 ， 还 可 以 计算 预测 公式 中 的 截 距 和 斜率， 公式 如 下 ， 记 一 次 指数 平滑 值 为 s1， 二 次 指数 平滑 值 为 s2: 


截 中 Ud —2I*g—s> 
平滑 系数 


冬 率 0 一 一 一 一 一 Ts $5 
1 平滑 系数 3?) 


由 此 计算 出 相应 的 截 距 和 和 斜率 如 图 13-4 所 示 。 
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6) 依据 截 距 和 和 斜率 计算 出 相应 的 预测 值 。 


13.3.2 ”三 次 拍 数 平滑 

正如 13.3.1 世 所 介绍 的 ， 在 做 指数 平滑 时 需要 有 一 个 平滑 系数 ， 平 滑 系 数 的 确定 是 比较 随机 的 ， 或 者 说 是 比较 随意 的 ， 那 么 
如 何 确定 一 个 最 优 的 平滑 系数 呢 ? 规划 求解 可 以 帮助 我 们 解决 这 个 问题 。 

规划 求解 的 安 委 见 6.1 节 ， 以 下 简 音 解释 一 下 规划 求解 的 原理 。 


在 现实 生活 中 ， 我 们 通常 都 想 让 上 自己 的 行为 合算 ,例如 现在 手 里 有 1 万 元 ， 可 以 拿 这 1 万 元 去 旅游 、 买 东西 、 吃 饭 等 ， 那 我 
们 目 然 会 有 一 个 想法 ， 如 何 让 这 1 万 元 对 我 们 的 效用 最 大 化 ? 


另外 再 看 一 个 例子 ， 在 股票 的 选 股 操作 中 ， 如 果 现 有 的 方案 是 A、B、C、D、E 这 五 个 ， 且 这 5 个 方案 的 预计 收益 都 差不多 ， 
那么 要 选 哪 一 个 呢 ? 在 金融 系统 中 ， 大 家 都 非常 注重 风险 ， 如 果 在 几 个 预计 收益 都 一 样 的 方案 中 ， 就 选择 风险 最 小 的 那个 。 

由 此 看 到 ， 我 们 往往 会 有 这 样 的 行为 选择 : 

希望 在 投入 固定 的 情况 下 ， 收 益 最 大 化 。 

:如果 收 益 是 基本 固定 的 情况 下 ， 和 希望 投入 最 小 ， 或 者 风险 最 小 。 


以 上 讲 的 这 两 条 实际 上 是 运筹 学 的 核心 理念 ， 在 EXCEL 中 通过 “规划 求解 ”这 个 加 载 项 可 以 实现 这 个 功能 。 


以 案例 文件 13.5 中 的 第 一 个 工作 表 为 例 ，A、B、C 三 列 是 实际 值 ，D 列 是 及 用 一 次 指数 平滑 预测 的 数值 ， 平 滑 系数 放 在 H7 的 
位 置 ， 这 里 要 求解 一 个 最 优 的 平滑 系数 ， 使 得 预测 的 效率 最 高 ， 预 测 的 精确 度 的 测量 的 值 放 在 17 的 位 置 ， 先 进入 规划 求解 界面 ， 
如 图 13-5 所 示 。 


二 厂 业 三 杞 绍 数 据 
下 天 下 
5 人 人参 LE mn 三 三 隐藏 明细 霹 数 扭 


删除 ”数据 ”合并 计算 模拟 分 析 | 创建 组 取消 组 合 分 类 汇总 
重复 项 有 效 性 - - - 


数据 工具 分 级 显示 





图 13-5 


扎 击 “规划 求解 ”按钮 进入 规划 求解 界面 ， 如 图 13-6 所 示 。 


在 图 13-6 所 示 的 界面 中 ， 设 置 目标 后 面 是 |7， 表 示 要 分 析 研 究 的 目标 束 是 17 单 元 格 ， 第 二 行 选择 “最 小 值 ”， 表 示 现 在 是 寻 
求 17 单 元 格 最 小 的 一 个 解决 方案 。 


过 改变 单元 格 ， 选 择 H7， 表 示 H7 是 相应 的 变量 。 在 “遵守 约束 ”中 ， 会 录入 各 种 约束 条 件 ， 本 例 中 就 规定 H7 是 一 个 在 0 
到 1 之 间 的 数 子 。 点 击 确定 “求解 ”后 ， 出 现 图 13-7 所 示 的 界面 。 


图 13-7 的 界面 表示 找到 了 一 个 规划 求解 的 解 ， 点 击 “确定 ”， 得 到 图 13-8。 





设置 目标 : @) 
到 加 最 大 值 di 加 最 小 值 四 | BO D | 


通 ] 寸 更改 可 变 单 元 格 : (B) 





使 无 约束 弯 重 为 非 负 闭 区 ) 


选择 求解 方法 : 到 ) 非 线性 GRG mm 选 需 全 ) 
求解 方法 

光滑 非 线性 规划 求解 问题 选择 GRG 非 线性 引擎 。 为 线性 规划 求解 问题 选择 单纯 线性 规划 引 
级 ， 汪 为 基 光 性 规划 永基 癌 里 寺 反 当代 天 

帮助 00 求解 G) 关闭 @) 


图 13-0 


规划 求解 收 全 于 当前 的 解 ， 可 东 足 所 有 的 约束 。 


也 保留 规划 求解 的 解 
Q 还 原初 什 


口 奶 回 “ 规划 求解 参数 ”对 证 杠 


PC 取消 | 保存 方案 .| 


规划 求解 收 妾 于 当前 的 解 ， 可 蒲 足 所 有 的 约束 。 


规 呈 下船 忆 名 全 5 次 人 送 代 ， 因 为 目标 溉 有 显 着 移动 。 请 涯 1 式 较 小 的 收 借 保 直 或 
不 同 的 起 





图 13-7 


求 和 六 36 于 
F 3I|= C 别 = 
3028. 871 10353. 27 


日 直下 | L350.. 1 





图 13-8 
可 以 看 到 ， 当 平滑 系数 为 0.275 的 时 候 ， 曲 线 拟 合 的 效果 最 好 。 


规划 求解 在 很 多 数据 分 析 的 场合 都 有 应 用 ， 这 里 只 是 一 个 简单 的 应 用 而 已 ， 有 兴趣 的 读者 可 以 在 网 上 搜索 相 天 资料 或 者 参考 
其 他 文献 。 


在 确定 了 最 优 的 平滑 系数 后 ， 继 续 做 三 次 指数 平滑 ， 如 案例 文件 13.5 的 第 二 个 工作 ，D、E、F 三 列 是 三 次 移动 平均 的 值 ， 可 
以 得 到 最 后 一 期 的 值 ， 如 图 13-9 所 示 。 


i 一 , 十 DO, oo 
2D09 年 7 月 . 1588| BBS. 4324 
?D09 年 8 月 . qn028 BEB. B441 
?3 六 9 年 9 月 . Ddd1 BT1. T7961 


2009 年 10 月 Bo88 6BD0. 5329 
2009 年 11 月 . To2d B92. O659 
2009 后 12 月 a055 TO0O7. 113 





图 13-9 


下 面 公 陈 中 的 a、b、<c 残 是 预测 多 项 了 式 中 的 系数 。 


=3s0 3s0 4s 
-re (2) @) 
a So) OCS 4a)s; 二 (4-3a)S | 
2 
用 [s_2s Os) 
(10Y 


现在 计算 得 到 的 a、b、c 如 图 13-10 所 示 。 


EE 31222 


1. 15TUUS3 





如 果 预 测 后 面 四 期 的 数值 ， 那 么 第 37 期 的 数值 是 : 


y(37)=892.89+43.9*1+1.757*1? 


第 38 期 的 数值 是 : 
y(38)=892.89+43.9*1+1.757*2° 


后 面 以 此 类 推 。 


13.4 对 周期 性 数据 的 分 解 


在 现实 生活 中 ， 有 很 多 数据 具有 周期 性 ， 例 如 气温 、 销 售 量 等 。 据 笔者 了 解 ， 手 半 水 和 乳 饮 料 的 销 
往往 陷入 低谷 ; 汽车 的 销售 高 峰 往往 出 现在 第 四 季度 ; 而 部 分 药品 (例如 感冒 咳嗽 ) 往往 企 春天 达到 销 


周期 性 的 数据 通常 由 以 下 几 个 部 分 组 成 。 


: 裸 值 : 这 个 值 就 是 业务 最 “根本 ”的 那个 值 ， 例 如 不 管 汽车 行业 的 销售 高 峰 是 哪个 季度 ， 汽 车 行业 最 基础 的 销量 是 多 少 。 


` 趋势 值 : 趋势 值 就 是 业务 值 变 化 的 趋势 值 ， 例 如 春天 的 气温 总 是 逐步 升 高 ， 秋 天 的 气温 总 是 逐步 下 降 。 


: 循环 值 : 业务 数据 中 代表 循环 的 数值 。 
“ 不 规则 值 : 数据 中 具有 偶然 性 的 、 难 以 预测 的 值 。 


SPss 可 以 将 业务 数据 值 进行 分 解 ， 让 我 们 能 够 更 好 地 对 数据 有 所 了 解 。 下 面 残 介绍 一 下 分 解 过 程 ， 以 案例 文件 11.6 为 例 ， 
里 面 展示 的 是 历年 的 气温 数据 ， 为 了 进行 数据 的 分 解 ， 和 下 先 要 添加 时 间 序 列 方面 的 信息 。 


(1) 添加 时 间 序 列 值 


在 SPSS 里 ,依次 点 击 “ 数 据 ” 一 “定义 日 期 ”， 如 图 13-11 所 示 。 


数据 (D) ”转换 [T) ”分 析 (A) 
[3 定 六 变量 局 性 (W) 
划 设置 未 知 测量 部 别 (LD). 
上 时 制 数据 属性 (CY. 


国 新 建设 定局 性 人 B) 
二 定义 日 期 (E)- 
定 尽 守重 响应 集 (M) 


图 13-11 





第 一 个 小 守 关 (ET 


年 伤 

重伤 * 这 白 四 局 架 列 的 同期 
年 和食 月 伤 

重伤 邓 刘 * 月 伤 


元 





图 13-12 


这 时 ， 会 出 现 图 13-12 所 示 的 界面 。 


由 于 案例 文件 11.6 中 本 来 就 是 以 月 份 分 类 的 数据 ， 因 此 可 在 图 13-12 中 选择 “年 份 、 月 份 ”， 具 体 日 期 选择 从 1990 年 1 月 开 
始 ， 操 击 “ 确 定 ” 后 会 得 到 图 13-13。 


1 JAN T1940 
2 FCG 1940 
3 MAR 3 区 
4 APR 1440 


5 MAY |1Y9YdU 
6 JUN 1990 
JUL 1 
8 A 1990 





图 13-13 
(2) 进行 分 解 操 作 


在 SPSS 里 ， 依 次 点 击 “ 分 析 ” 一 “预测 ′ 一 “季节 性 分 解 ”， 如 图 13-14 所 示 。 





分 析 (A) ”直销 (M) 图 形 (G) dh 窗口 (W) 
报告 EE 
搞 玉 统计 
表 (T) 
比较 均值 (M) 
一 般 北 性 模型 (G) 
广义 线性 模型 
混合 模型 (X) 
相关 (C) 
回 扫 (R) 

对 数 线 性 模型 (O) 
神 兰 网 治 


度量 (S) 

非 人 参数 检验 (N) 
预测 (T) 

生存 函数 (S) 
多 重 响应 (U) 


FE 创建 模型 (C).. 
应 用 模型 (A).. 
季节 性 分 解 (9).. 


图 13-14 


这 时 ， 会 出 现 如 图 13-15 所 示 的 界面 。 





围 YEAR, not periodic [. 
J MONTH, period 12 [ 





昌 所 有 点 相等 
@ 结束 点 按 0.5 加 权 





图 13-15 


在 图 13-15 中 ， 在 “模型 类 型 ”里 ,选择 “加 法 ”， 在 “移动 平均 权重 ”中 ， 选 择 “ 结 束 点 按 0.5 加 权 ”， 得 到 图 13-16。 


ERR 1 


.60164 
-.53229 
20972 
-D00141 
-.20444 
-.11713 


--15845 
.5U1U4 
-1.08218 
-028641 
1.55428 
-.-66215 
.09U51 


SAS 1 


15.16007 
13.135U7 
13.90694 
13.15611 
12.55114 
12.53090 
12.39444 
13.16111 
11.85694 
13.42361 
15.31736 
12.71569 
13.66007 


SAF 1 


-15.86007 
-11.635U7 
-6.20694 
1.51389 
{.24026 
11.76910 
13.50556 
12.23009 
{1.14306 
1.01639 
-7.61736 
-13.17569 
-15.66007 


| STC 1 


14.55243 
14.26136 
13.69722 
13.19352 
12.62116 
12.64803 
12.55289 
12.660U 7 
12.93912 
13.33514 
13.76308 
13.43785 
12.36956 





图 13-16 
以 上 数据 中 ，ERR 表 示 不 规则 的 部 分 ，SAs 表 示 去 挥 季节 性 因素 的 部 分 ，SAF 表 示 季 节 性 因素 ，3TC 表 示 趋 势 和 循环 值 。 


另外 ， 在 SPss 的 输出 中 ， 同 样 也 有 季节 性 因素 值 的 输出 ， 如 图 13-17 所 示 。 
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图 13-17 


图 13-17 的 输出 值 束 等 同 于 图 13-16 中 的 SAF 值 ， 不 再 痪 述 。 


13.5 ARIMA 预 测 法 


ARIMA 方 法 在 预测 方面 比较 有 名 ， 也 应 用 得 比较 普遍 ， 以 下 介绍 一 下 在 SPSS 里 面 的 做 法 。 这 里 以 案例 文件 13.7 为 例 进行 说 
明 。 


在 SPSS 里 ,依次 点 击 “ 分 析 ” 一 “预测 ”一 “创建 模型 ”， 如 图 13-18 所 示 。 





分 析 (A) 直销 (M) 
报告 

描述 统计 

表 (T) 

比较 均值 (M) 
一 般 线性 模型 (G) 
广义 线性 模型 
兹 合 模 贡 (X) 
相关 (C) 

回 寺 (R) 

对 数 线性 模型 (0) 
神经 网 络 

分 类 (FP) 

降 维 

度量 (S) 

非 参数 检验 (N) 
预测 (T) 


图 形 (G (G) 实用 TD 










































Q1 1960 
) Q2 1960 
Q3 1960 
1Q4 1960 

Q1 1961 
Q2 1961 
QQ3 1961 
| Q4 1961 

Q1 1962 
QQ2 1962 
Q3 1962 


将 创建 模型 (C).. 






图 13-18 


这 时 ， 得 到 如 图 13-19 所 示 的 界面 。 
这 里 将 “利息 和 大 ” 放 入 因 变 量 , 在 “方法 ”中 选择 ARIMA， 然 后 点 击 “ 条 件 ”， 得 到 图 13-20。 


在 图 13-20 所 示 的 界面 ， 在 “季节 性 ”中 分 别 设 定 参 数 为 3、1、2， 为 什么 这 样 设 定 就 不 解释 了 ， 实 在 是 一 下 子 解释 不 清 


楚 ， 基 本 上 做 ARIMA 操 作 ， 都 是 选择 3、1、2 这 三 个 参数 。 


继续 设置 参数 ， 在 “统计 量 ” 中 勾 选 “显示 预测 值 ”， 如 图 13-21 所 示 。 


本 | 汪 





sx RA 7 CD 
模型 类 型 : ARIMA(0, 0, 0) 


后 动 : 第 一 个 个 案 局 动 : 模型 评估 期 后 的 第 一 个 个 案 


结束 : 最 后 一 个 个 案 结束 : 活动 数据 集 内 的 最 后 一 个 个 案 





结构 (S): 




















当前 周期 性 :4 
转 执 
© 无 (N) 
〇 平方 根 (Q) 
|” 昌 自 然 对 数 ([) 


在 模型 中 包 捕 叮 才 山 





图 13-20 


按 模型 显示 拟 合 度量 、Ljung-Box 统计 且 和 敲 群 值 的 数量 (D) 
拟 合 度量 
平稳 的 尺 方 (Y) 平均 绝对 误差 (E) 
民 方 (R) 明太 绝对 误差 百分比 ( 昌 ) 
均 方 根 误差 (O) 启 大 绝对 误 荐 (X) 
平均 绝对 误差 百分比 (P) 四 标准 化 的 BIC(L) 


比较 模型 的 统计 量 一 一 一 一 一 一 一 一 一 一 一 一 一 个 别 | 柑 型 的 统计 县 一 
拟 合 优 度 (G) 参数 估计 (M) 
践 差 自 相 人 关 函 数 (ACFJA) 残 莽 自 相关 函数 (ACF}(F) 


残 莽 郭 分 自 相 关 函 数 (PACF)(U) 残 莽 部 分 自 相 关 函 数 (PACF)(C) 





在“ 图表 ”中 ， 人 在 “每 张 图 显示 的 内 容 ” 中 勾 选 “观察 值 ”“ 预 测 值 ”“ 拟 合 值 ”， 如 图 13-22 所 示 。 


[模型 比较 图 
加 平稳 的 R 方 人 最 大 绝对 误差 百分比 多 ) 
R 方 (R) 最 大 绝对 误差 (日 ) 
均 方 根 误差 (Q) 标准 化 的 BIC(N) 
| 回 平均 绝对 误差 百分比 (P) 同 残 莽 自 相关 函数 (ACF)(U) 
平均 绝对 误差 (M) 回 残 差 部 分 自 相关 函数 [PACF)(F) 


























-单个 棋 型 图 

| 图 序 列 (E) 歼 莽 自 相关 函数 (ACF)(A) 

每 张 图 显示 的 内 容 王 差 部 分 自 相 估 函数 (PACF)(C) 
观察 值 (0) 

万 预测 值 (S) 

图 拟 合 值 (1) 

预测 值 的 置信 区 间 (V) 

拟 合 值 的 置信 区 间 (U) 



































在 “保存 ”中 勾 选 “预测 值 ”“ 置 信 区 间 的 下 限 ” “置信 区 间 的 上 限 ” “噪声 残 值 ”等 ， 如 图 13-23 所 示 。 


交 最 多 量 图表 多 4 并 保 过 


保存 变量 





变 且 (V): 
内 存 ] 变量 名 的 前 经 


LCL 
UCL 


NResidual 


对 于 渤 定 的 每 一 项 ， 都 会 针对 每 个 央 变 量 你 存 一 个 变量 。 
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图 13-23 


在 “选项 ”中 ， 在 “预测 阶段 ”有 两 个 选项 ， 一 是 “评估 期 后 的 第 一 个 个 案 到 最 后 一 个 个 案 ”， 二 是 “评估 期 后 的 第 一 个 个 


| | 大 
案 到 指定 日 期 乙 间 的 个 案 ”， 个 人 锅 得 第 一 个 选项 几乎 没有 任何 意思 ， 我 们 是 来 做 预测 的 ， 把 原来 的 数据 集 再 来 跑 一 届 ， 没 有 意 
义 ， 所 以 通常 都 是 勾 选 第 二 个 选项 “模型 评估 期 后 的 第 一 个 个 案 到 指定 日 期 乙 间 的 个 案 ”， 如 图 13-24 所 示 。 


在 本 例 中 ， 数 据 是 到 2008 年 12 月 的 ， 我 们 预测 到 2009 年 6 月 。 现 在 所 有 的 设置 全 部 结束 ， 点 击 “ 确 定 ”。 
之 后 在 数据 集中 ， 给 出 了 相应 的 预测 值 ， 如 图 13-25 所 示 。 
在 SPSS 的 输出 中 ， 也 给 出 了 相应 的 预测 图 ， 如 图 13-26 所 示 。 


在 图 13-26 中 ， 在 竖立 的 黑 线 的 左边 ， 残 是 历史 数据 ， 黑 线 的 右边 ， 束 是 预测 的 数据 。 


预测 阶段 
晶 模型 评估 期 后 的 第 一 个 个 案 到 活动 数据 集 内 的 最 后 一 个 个 案 (F) 


用 瞩 缺 失 值 重信 区 则 宽度 (%)(W): 


@ 视 困 无 效 [T) EE 
[ 这 2 
oe 输出 中 的 模型 识别 前 所 


ACF 和 PACF 输出 中 的 让 不 标 敬 景 大 数 : 








1JAN 2009 

2/FEB 2009 
3 MAR 2009 
4 APR 2009 
5 MAY 2009 
6 JUN 2009 


























图 13-25 


一 观测 值 
一 拟 合 值 
-一 预测 


利息 差 - 模 型 _1 





图 13-26 ( 附 彩 图 ) 


第 14 章 。” 遍 级 绘图 技巧 


绘图 算 不 算数 据 分 析 的 一 部 分 ， 天 于 这 个 问题 是 有 争议 的 ， 有 的 人 认为 模型 和 算法 才 算 是 数据 分 析 ， 绘 图 只 是 表达 分 析 的 结 
果 而 已 ， 因 此 不 应 该 算 作 数据 分 析 。 笔 者 认为 ， 好 的 绘图 ， 也 残 是 好 的 呈现 ， 完 全 可 以 算 作 数 据 分 析 的 一 部 分 ， 图 男 得 好 ， 让 人 
一 眼 融 能 看 到 直观 的 结论 ， 当 然 应 该 属于 数据 分 析 的 一 部 分 了 。 


14.1 起 样 才 算 图 男 得 好 


在 讲述 具体 的 绘图 技巧 之 前 ， 首 先 谈 谈 画 图 的 标准 ， 这 些 标准 会 成 为 后 续 讨 论 画 图 技巧 的 基础 。 根 据 作者 的 经 验 ， 如 果 要 画 
好 一 个 数据 分 析 的 图 形 ， 应 该 包括 以 下 几 个 方面 。 
(1) 信息 丰富 


信息 量 是 绘图 的 首要 目标 ,很 多 管理 者 都 希望 通过 “一 张 图 ”看 到 业务 的 全 有 够 (其实 大 多 数 时 候 不 大 可 能 ， 但 是 这 也 反映 了 


电 / 书 \ 星 XE 人 二 


管理 者 的 一 种 诉求 ， 融 是 不 希望 陷 在 图 表 的 海洋 中 ) 。 
(2) 重点 突出 


绘图 应 该 将 需要 表达 的 重点 信息 突出 显示 出 来 ， 例 如 特别 大 的 值 、 特 别 小 的 值 、 需 要 比较 的 标杆 值 等 ， 让 看 图 的 人 一 眼 融 能 
够 看 到 需要 突出 表示 的 值 。 


(3) 布局 合理 


一 个 图 是 由 多 个 部 件 组 成 的 ， 包 括 图 形 的 主体 部 分 、 坐 标 轴 、 标 答 、 图 例 等 ， 如 何 合理 地 将 这 些 部 件 组 合 在 一 起 ， 也 是 绘图 
好 坏 与 否 的 重要 判断 标准 。 


(4) 色彩 对 比 得 当 
图 形 的 色彩 也 有 首相 当 重 要 的 作用 ， 色 彩 未 必 是 趣 鲜 艳 越 好 ， 简 约 、 朴 素 、 大 方 往往 是 绘图 色彩 的 重要 因素 。 


以 下 结合 实际 案例 介绍 一 些 常见 的 绘图 技巧 ， 需 要 说 明 的 是 ， 太 过 于 基础 的 技巧 就 不 介绍 了 ， 这 里 只 是 介绍 一 些 比较 “高 
级 ”的 技巧 。 


14.2 ” 双 轴 图 的 技巧 和 运用 


在 画图 的 时 候 ， 经 常会 页 到 系列 数据 数量 级 不 相同 的 情况 ， 以 案例 文件 14.1 中 的 表 为 例 ， 表 中 B、C、D 三 列 数据 帮 别 在 20 
倍 左 右 ， 按 照 普通 的 方法 画图 ， 则 为 先 框 选 数据 的 有 效 范 围 ， 然 后 选择 柱状 图 ， 最 后 会 得 到 图 14-1。 
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图 14-1 


可 以 看 到 ， 在 图 14-1 中 肉眼 只 能 观察 到 两 个 系列 ， 而 “完成 率 (%) ”这 个 系列 路 迹 全 无 ， 其 原因 丈 是 完成 率 这 个 系列 跟前 
两 个 系列 差别 太 大 ， 导 致 即 使 有 显示 但 也 没 法 观察 到 。 


既然 无 法 在 图 上 看 到 该 系列 ， 必 须要 及 用 一 个 有 效 的 万 法 让 该 系列 数据 能 被 看 到 ， 一 个 有 效 的 万 法 是 将 图 中 数据 过 小 的 显示 
到 次 坐标 轴 上 去 。 


在 EXCEL 中 ， 在 “图 表 工 具 ” 的 “布局 ”中 找到 “图 表 区 ”并 且 点 击 ， 如 图 14-2 所 示 。 
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图 14-2 


此 时 ， 会 得 到 图 14-3。 在 该 图 的 图 表 区 中 ， 可 以 看 到 图 表 中 的 全 部 部 件 都 在 里 面 ， 包 括 坐 标 轴 、 网 格 线 、 水 平 轴 、 系 列 
等 ， 选 择 那 个 数据 非常 小 的 “完成 率 (%) “ 
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图 14-3 





此 时 ， 会 得 到 图 14-4。 图 中 箭头 所 指 的 位 置 束 是 表示 该 系列 已 经 被 选中 。 
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然后 会 得 到 1 4- 6。 
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图 14-0 


在 图 14-6 的 “系列 绘制 在 ”中 选择 “次 坐标 轴 ” ， 得 到 图 14- 7。 
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图 14-7 


这 时 显示 在 次 坐标 轴 的 系列 默认 是 柱状 图 ， 选 中 该 系列 ， 点 击 鼠 标 右键 ， 在 弹出 的 界面 选择 “更 改 系 列 图 表 类 型 ”， 如 图 


14-8 折 示 。 
































然后 选择 “折线 图 ”， 如 图 14-9 所 示 。 
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图 14-9 


这 样 一 个 双 轴 图 融 画 完了 ， 如 图 14-10 所 示 。 
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图 14-10 


14.3 不同 数量 级 数据 的 高 效 对 比 展示 


以 案例 文件 14.2 为 例 ， 这 是 一 份 很 普通 的 数据 ， 展 示 了 四 个 城市 在 1 ~ 12 月 的 数据 ， 现 在 想 做 一 个 数据 的 对 比分 析 ， 如 果 选 
择 普通 的 做 法 ， 例 如 绘制 柱状 图 或 折线 图 ， 那 么 显示 的 效果 如 图 14-11 所 示 。 
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可 以 看 到 ， 柱 状 图 乱七八糟 的 ， 真 的 没什么 好 看 的 ， 再 看 看 折线 图 ， 如 图 14-12 所 示 。 


折 续 图 跟 柱 状 图 也 差不多 ， 几 乎 没 法 看 。 那 么 有 没有 更 好 的 解决 办 法 呢 ? 


仔细 观察 表格 中 的 数据 ， 发 现 数据 都 是 在 0-100 之 间 的 ， 这 时 ， 可 采用 辅助 列 技术 : 在 数据 列 之 后 添加 数据 ， 数 据 是 100 - 
x， 就 是 让 两 询 的 数据 加 起 来 是 100， 如 图 14-13 所 示 。 
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图 14-12 














图 14-13 
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数据 ， 然 后 选择 图 表 类 型 ， 如 图 14-14 所 
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在 图 14-13 中 框 出 来 的 残 是 辅助 询 部 分 。 
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图 14-14 


这 次 选择 的 图 形 不 再 是 普通 的 柱状 图 ， 而 是 “堆积 柱状 图 ”， 如 图 14-15 所 示 。 
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辅助 列 在 这 里 承担 的 是 将 系列 底部 “ 执 平 ”的 作用 ， 正 是 因为 有 了 辅助 列 ， 才 能 完成 对 各 个 系列 内 部 进行 对 比 ， 不 过 为 了 更 
好 地 观察 系列 数据 ， 现 在 辅助 列 的 作用 已 经 完成 了 ， 要 把 它 隐藏 起 来 了 : 选择 图 中 的 辅助 列 对 应 的 系列 ， 点 击 昭 标 右键 ， 选 
择 “ 设 置 数据 系列 格式 ”， 如 图 14-16 所 示 。 
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图 “14-16 
在 “填充 ”选项 中 ， 和 选择“ 无 填充 ”， 得 到 如 图 14-17 所 示 的 效果 。 


依次 处 理 其 他 的 辅助 列 系列 ， 得 到 图 14-18。 


这 样 的 对 比 效果 图 是 不 是 比 之 前 的 效果 要 好 很 多 呢 ? 


在 上 述 基 础 上 ， 表 来 看 不 同 数 量 级 的 数据 如 何 进 行 对 比 。 以 案例 文件 13.3 为 例 ， 用 户 数 、 单 价 、 返 修 率 在 数量 级 上 磊 别 很 
大 ， 怎 么 样 对 其 进行 对 比分 析 呢 ? 
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图 14-17 
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图 14-18 


这 里 需要 用 到 数据 变形 的 技术 ， 通 常 使 用 的 一 个 数据 变形 方法 束 是 让 系列 中 的 每 一 个 数 都 除 以 系列 中 的 最 大 值 ， 如 图 14-19 
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图 14-19 


经 过 这 样 的 转换 后 ， 每 个 系列 值 束 被 转换 为 0 到 1 之 间 的 数字 ， 随 后 再 添加 辅助 列 ， 方 法 和 案例 文件 14.2 相 同 ， 不 册 蒙 述 。 


14.4 数据 慰 等 的 妙用 


数据 标签 在 绘图 中 有 时 能 起 到 重要 的 作用 ， 以 案例 文件 14.4 的 工作 表 1 为 例 来 绘制 折线 图 ， 如 图 14-20 所 示 。 
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图 14-20 
在 图 14-20 中 ， 虽然 低 点 是 比较 容易 判断 的 ， 但 是 比较 难 分 辨 出 数据 的 高 点 ， 而 且 也 不 清楚 低 点 的 具体 数值 是 多 少 ， 如 果 希 
望 在 这 张 图 上 明确 地 找到 高 点 和 低 点 并 且 看 到 数字 ， 则 可 按照 以 下 具体 步骤 操作 。 


第 一 步 ， 添 加 辅助 列 。 


添加 “最 大 值 ”“ 最 小 值 ”“ 平 均值 ”三 个 系列 ， 最 大 值 和 最 小 值 系 询 中 均 采 用 了 NA 负数 ， 也 融 是 说 该 系列 中 最 大 值 (最 
小 值 ) 是 有 数值 的 ， 其 他 位 置 都 没有 数值 。 


第 二 步 ， 选 中 数据 系列 ， 绘 制 折线 图 ， 如 图 14-21 所 示 。 














图 14-21 


第 三 步 ， 选 中 最 大 值 系列 和 最 小 值 系 询 ， 添 加 数据 标签。 
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图 14-22 


在 图 14-22 所 示 的 界面 中 ， 选 择 “ 添 加 数据 标签 ”， 得 到 图 14-23。 
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图 。14-23 


在 图 14-23 中 ，“29053” 可 以 点 击 鼠 标 右键 进行 修改 ， 将 “29053” 修 改 为 “最 大 值 29053” ， 对 于 系列 的 最 小 值 也 进行 
相同 操作 (如 图 14-24 所 示 ) 。 
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图 14-24 


第 四 步 ， 图 形 的 优化 。 


上 面 的 图 形 还 不 大 好 看 ， 可 以 做 一 些 优 化 ， 例 如 删除 网 格 线 、 将 图 例 移 到 图 形 的 下 面 、 平 均值 那个 序列 改 为 虚线 、 将 曲线 改 
为 比较 圆滑 的 等 ， 由 于 涉及 的 操作 都 比较 简单 ， 这 里 只 介绍 曲线 改 为 平滑 线 的 做 ) 去 。 选 中 该 数据 系列 ， 点 击 妇 标 右 键 ， 选 择 “ 设 
置 数据 系列 格式 ”， 如 图 14-25 所 示 。 
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图 14-25 


然后 企 “ 线 型 ”中 多 选 “ 平 滑 线 ”， 得 到 图 14-26。 
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图 14-20 


这 样 ， 一 个 清晰 标注 系列 最 大 值 和 最 小 值 的 图 形 束 绘 制 好 了 ， 看 看 ， 这 个 效果 是 不 是 比 不 做 效果 之 前 好 得 多 ? 


再 来 看 一 个 稍微 复杂 的 图 形 标 签 的 应 用 ， 这 里 以 案例 文件 14.5 为 例 ， 具 体 做 法 如 下 。 


第 一 步 ， 添 加 辅助 列 。 


添加 一 个 年 龄 段 辅助 询 ， 数 值 是 70， 这 里 的 70 并 没有 实质 性 意义 ， 只 是 在 后 续 的 图 形 中 表示 一 个 长 度 而 已 。 


这 个 绘图 中 最 为 关键 的 是 F 列 ，F 列 表面 上 看 起 来 和 B 列 完全 一 样 ， 但 是 实际 上 是 B 列 的 负数 ， 丈 是 用 0 减 去 B 列 的 数 。 那 为 什 
么 又 要 显示 为 正 数 呢 ?这 是 因为 绘图 所 需 。 


请 注意 ，F 列 的 格式 是 “ 自 定义 ”， 如 图 14-27 所 示 。 
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图 。14-27 
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图 14-28 


扎 击 “ 目 定 义 ”右边 的 箭头 ， 选 择 “ 其 他 数字 格式 ”， 结 果 如 图 14-29 所 示 。 

在 “ 目 定 义 ”中 ， 有 具体 格式 为 “0; 0; 0;@”， 这 个 格式 的 意思 是 把 负数 显示 为 正 数 。 
第 二 步 ， 绘 制 条 形 图 。 

选择 “堆积 图 ”， 如 图 14-30 所 示 。 

第 三 步 ， 删 除 网 格 线 和 坐标 轴 。 


为 了 让 图 形 显 得 更 加 醒目 ， 删 除 网 格 线 、 横 坐标 、 纵 坐标 ， 得 到 图 14-31。 
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图 。14-29 
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第 四 步 ， 给 各 系列 加 上 数据 标签 ， 如 图 14-32 所 示 。 
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第 五 步 ， 修 改 年 龄 段 的 数据 标签 ， 如 图 14-33 所 示 。 
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依据 图 14-33， 修 改 数据 标签 格式 ， 得 到 图 14-34。 


在 “标签 选项 ”中 ， 原 来 是 “ 值 ”， 现 在 勾 选 “类 别名 称 ”， 再 修改 各 系列 的 颜色 ， 得 到 图 14-35。 
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边框 样式 

阴影 

发 光 和 柔 化 边 红 
三 维 格式 

对 章 方 式 


加 从 
重 弃 标签 文本 对 ) 
标签 位 二 
@ 居中 必 ) 
数据 标本 内 区) 
轴 和 内侧 句 ) 


标 蕉 中 包括 图 例 碎 标示 (L) 





分 隔 符 外 |， [el| 
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图 14-35 ( 附 彩 图 ) 


好 了 ， 看 看 上 面 的 图 ， 是 不 是 也 比 普 通 的 图 效果 要 好 很 多 呢 ? 


14.5 ”图 形 中 的 重 上 号 标 ; 


在 绘图 时 ， 我 们 经 党 天 注 图 形 中 的 重点 标注 。 重 点 标注 通 弟 包括 : 最 大 值 、 最 小 值 、 平 均值 ， 以 及 一 些 需 要 特殊 标注 的 值 。 


对 这 些 重点 值 的 标注 可 以 采用 辅助 询 、 数 据 标 记 、 分 色 等 方法 ， 由 于 之 前 已 经 介绍 过 辅助 询 、 数 据 标 记 的 方法 ， 下 面 只 详细 介绍 
一 下 分 色 的 方法 。 


以 案例 文件 14.6 为 例 ， 对 于 该 例 中 的 这 10 个 产品 ， 如 果 要 标注 出 高 于 平均 值 和 低 于 平均 值 的 系列 ， 并 且 和 希望 分 颜色 显示 ， 
那么 同样 可 以 采用 辅助 列 的 做 法 ， 先 用 上 F 阔 数 和 NA 闻 数 的 组 合 ， 构 造 出 遍 于 平均 、 低 于 平均 、 平 均值 这 三 个 系列 ， 然 后 画图 ， 
并 将 平均 值 系 列 用 虚线 显示 ， 这 样 束 达 到 了 分 色 标 注 的 效果 ， 见 图 14-36。 





14.6 ” 纵 图 壬 学 一 一 多 操 审 美 素 错 


疆 公 


之 前 介绍 了 一 些 具体 的 绘图 技巧 ， 不 过 相对 于 普通 的 数据 分 析 而 言 ， 绘 图 有 一 定 的 特殊 性 ， 绘 图 是 “ 反 巧 + 艺术 ”的 结合 ， 
光 会 技巧 可 能 还 不 够 ， 还 需要 有 一 点 艺术 瞧 员 的 眼光 。 


14.6.1 整体 布局 


掉 先 要 考虑 的 丈 是 数据 的 整体 布局 ， 图 表 区 的 大 小 、 图 例 位 置 的 摆 放 (有 的 人 习惯 把 图 例 放 在 下 面 ， 有 的 人 则 认为 图 例 放 在 
上 面 会 比较 大 气 ) 、 举 标 轴 的 粗细 、 是 否 需 要 网 格 线 等 ， 都 与 一 个 人 的 绘图 习惯 或 者 审美 眼光 有 天。 

下 面 根据 个 人 的 经 验 ， 提 出 一 些 绘图 的 “原则 ”。 之 所 以 “原则 ”市 双 引 号 ， 是 因为 这 个 原则 实际 上 残 是 一 个 经 验 轧 结 。 

-图例 尽 可 能 放 在 图 表 区 上 方 或 者 下 方 ， 以 尽量 扩大 图 表 区 空间 。 

“ 最 好 不 加 网 格 线 ， 网 格 线 放 在 那 让 很 多 人 觉得 不 舒服 ， 而 且 据 笔者 的 观察 ， 大 部 分 比较 专业 的 绘图 都 不 要 网 格 线 。 

无 论 是 横 坐 标 轴 还 是 纵 坐 标 轴 ， 坐 标 轴 的 标记 都 不 要 做 得 太 密 。 


` 尽量 不 要 摘 多 个 纵 坐 标 轴 之 类 的 图 形 ， 一 是 画图 特别 费劲 ， 二 是 在 看 图 的 时 候 ， 眼 睛 都 不 知道 往 哪个 轴 上 看 。 画 图 有 时 候 


14.6.2” 线 型 的 选择 


画图 少不了 面临 线 型 的 选择 ， 不 过 襄 穿 了 ， 线 型 也 只 有 两 种 大 的 类 型 : 一 是 实 线 ， 二 是 虚线 。 


有 不 少 人 在 画图 的 时 候 ， 为 了 突出 表示 效果 ， 忆 喜欢 用 实 线 ， 而 且 加 粗 ， 实 际 上 ， 我 个 人 认为 在 图 形 呈 现 中 ， 粗 线 往往 并 不 
好 看 ,我 个 人 比较 倾向 于 用 细 线 ， 感 党 细 线 比较 漂亮 ， 而 且 我 也 不 大 喜欢 加 粗 ， 一 般 的 粗细 束 好 了 。 


虚线 在 图 形 中 往往 作为 比较 值 或 者 标杆 (benchmark) 而 出 现 的 ， 同 样 ， 我 也 完 得 虚线 最 好 不 加 粗 ， 而 且 虚 线 中 每 个 小 线 
段 的 长 短 也 是 有 讲究 的 ， 太 短 了 不 好 看 ， 太 长 了 看 上 去 像 实 线 。 


14.6.3 ”色彩 对 比 


谈 到 绘图 中 的 色彩 ， 真 是 一 门 独 立 朋 深奥 的 学 问 ， 这 绝对 不 是 三 言 两 语 束 能 讲 明日 的 事情 ， 但 是 我 们 在 平时 绘图 的 过 程 中 ， 
经 党 有 这 样 的 感觉， 就 是 有 的 图 显得 很 醒目 美观 ， 而 有 的 图 则 显得 灰暗 、 疫 有 特色 ， 图 片 的 色彩 往往 起 到 重要 的 ， 甚 至 决定 性 的 
作用 。 


由 于 篇 幅 的 关系 ， 或 者 说 我 在 色彩 方面 也 未 必 有 足够 的 经 验 ， 只 能 大 概 说 一 下 色彩 选择 的 几 个 基本 原则 : 
` 冷暖 色 对 比 ， 这 是 最 基本 的 原则 。 

` 比较 灰暗 的 颜色 ， 最 好 不 要 用 ， 例 如 土 黄 色 。 

- 如 果 对 于 色彩 组 合 不 太 了 解 ， 可 以 参考 条 件 格式 中 的 色 阶 。 

: 对 于 初学 者 来 说 ， 用 双色 的 组 合 是 一 个 比较 好 的 选择 。 


另外 还 有 一 个 很 重要 的 原则 ， 最 好 不要 用 EXCEL 图 形 中 默认 的 色彩 。 根 据 笔 者 了 解 ， 绝 大 多 数 在 乎 图 形 质 量 的 人 ， 痢 会 在 点 
认 的 EXCEL 图 形 的 基础 上 进行 颜色 的 修改 。 


后 记 ”数据 分 析 经 验 之 我 见 


洋洋 酒 酒 地 讲 了 这 么 些 关 于 数据 分 析 的 内 容 ， 忆 党 得 还 不 够 完整 ， 不 过 数据 分 析 的 范围 太 过 宽泛 ， 很 难 在 一 本 书 里 把 所 有 的 
工具 、 模 型 、 广 法 都 讲 清 楚 。 由 于 篇 幅 的 关系 ， 最 后 再 聊 一 聊 我 对 数据 分 析 经 验 的 看 法 。 


(1) 数据 规划 和 数据 质量 是 成 功 的 第 一 步 


巧 妇 难为 无 米 之 次 ， 有 没有 高 质量 的 可 供 分 析 的 数据 ， 是 数据 分 析 的 重要 的 第 一 步 ， 而 数据 质量 如 何 ， 很 大 程度 上 取决 于 数 
据 规 划 。 


有 不 少 企业 在 数据 分 析 甚 至 是 大 数据 项 目 方面 投入 不 少 , 但 是 效果 不 尽 如 人 意 ， 其 主要 原因 之 一 束 是 数据 质量 低下 。 


(2) 分 析 技 术 ， 实 用 是 最 重要 的 


数据 分 析 的 模型 和 算法 很 多 ， 但 是 从 目前 我 国企 业 的 实际 应 用 来 看 ， 最 好 还 是 不 要 使 用 太 多 “高 大 上 ”的 模型 ， 只 要 能 够 解 
决 问题 ， 分 析 近 林 赵 简单 实用 赵 好 。 


我 在 做 容 询 项 目的 时 候 ， 融 比较 多 地 采用 相关 分 析 ， 一 是 使 用 简单 ， 二 是 跟 客 户 沟 通 也 比较 方便 ， 如 果 使 用 logistic 回 归 之 
类 的 分 析 方 法 ， 跟 客户 讲 起 来 也 比较 费劲 。 


(3) 对 主要 的 统计 挖掘 工具 的 熟练 掌握 


数据 分 析 的 工具 相当 多 ， 但 我 认为 “ 贫 多 嚼 不 烂 ”， 熟 练 掌握 1 ~ 2 个 主要 的 分 析 工 具 即 可 ，SPS9S、9SAS、Meoderler 这 些 都 





是 单 用 的 分 析 工 具 ， 其 实 对 于 一 般 的 使 用 者 来 况 ， 要 完全 吃透 一 个 主要 软件 工具 ， 是 要 化 费 很 长 的 时 间 去 铀 研 的 。 “一 招 鲜 吧 通 
天 ”这 句 语 ， 还 是 相当 有 道理 的 。 

(4) 图 形 呈 现 和 分 析 报 表 相当 重要 

在 培训 和 | 咨询 过 程 中 ， 我 越 来 越 体 会 到 呈现 的 重要 性 ， 有 的 时 候 会 产生 这 样 一 种 感觉 一 一 分 析 做 得 好 ， 还 不 如 会 画图 的 
呢 ! 


读者 在 加 强 EXCEL 绘 图 水 平 的 时 候 ， 也 可 以 兰 试 一 些 专业 工具 ， 例 如 水 晶 易 表 、Tableau 等 。 
(5) 必须 要 将 分 析 结 果 和 具体 业务 相 结合 


数据 分 析 和 挖掘 最 终 还 是 为 了 业务 ， 所 以 免不了 要 和 业务 相 结 合 ， 因 此 ， 在 我 们 的 分 析 工 作 中 ， 经 常 要 想 想 ， 我 们 的 分 析 过 
程 和 结论 给 业务 工作 市 来 了 什么 样 的 提高 和 变化 ? 我 们 的 结论 是 否 能 够 很 好 地 被 业务 人 员 所 理解 和 接受 ? 勤 于 思考 ， 分 析 的 水 平 
也 束 慢 慢 提 高 了 ! 
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图 8-11 


性 别 龄 5 素 3 3 因素 9 ”因素 10 生病 
性 别 1 
年 龄 . 095473 
因素 1 .053951 0. 203792 
因素 2 . 031943 0.164544 1 
因素 3 .089863 0.20344 . 465572 
因素 4 .019629 “0. 2143 0. 207408 0. 180964 0.233018 1 


因素 5 .014245 -0. 06501 0. 118708 0. 117665 0. 095459 0. 122085 1 

因素 6 .071829 0.123763 0. 375494 0. 356265 0. 433083 -0. 05517 0. 101217 1 

因素 7 0. 17902 -0. 24139 -0.07414 -0. 06837 0.054606 -0.1062 0.106217 0.193601 1 

因素 8 0. 225372 -0. 03805 0.129716 0.128012 0. 118952 -0. 02861 0. 071038 0. 298882 国 时 是 玫 | 1 

因素 9 0.063953 0. 236611 0. 344493 0. 312333 0. 386864 0. 217353 0.116816 0.166439 -0. 05379 0.085487 

因素 10 。 0.011115 0.14536 0.141668 0.124989 0.260782 0. 177808 0. 196972 0.139503 0.130457 0. 082296 
和 0.129069 0. 376995 , 444359 0, 382325 0, 257899 0, 259591 -0. 11172 0. 019388 





Classification tree: 
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图 14-35 


